首页
比赛背景

强化学习在围棋、游戏等环境展示出超越人类的决策能力。为促进强化学习在真实场景的应用,江苏省人工智能学会联合南栖仙策发起此次竞赛。竞赛提供了高度仿真的决策应用场景,并要求参赛者按照真实场景的应用需求,仅从一部分历史数据中学习最优决策。比赛应用场景描述如下。

商品促销是企业营销的重要手段之一,如何精确制定促销方案,即在保障消费者权益的同时拉动消费需求、提高企业经营效益,是AI决策发挥能力的空间。与此同时,由于市场环境的快速变化和内外因素的高不确定性,促销策略往往会带来难以预估的用户反馈,企业会需要为此付出大量精力做高频精细化的策略调整,这一诉求会对AI的决策能力提出挑战。

在本次挑战赛中,主办方根据真实业务场景构建了高度仿真的决策环境。由于实际应用的条件限制,不佳的促销决策投放将造成严重损失。因此,参赛选手只允许在主办方提供的历史数据中学习,这些历史数据记录了过往促销决策与用户的交互反馈。参赛选手需要建立用户平等的促销策略模型,提交的策略模型将在仿真消费环境中进行促销投放测试,虚拟消费者会对促销策略进行反馈,以最终的虚拟促销投入产出结果来评估策略得分。