微信分享
AI决策•强化学习落地挑战赛

使用微信扫一扫分享到朋友圈

活动分享
AI决策•强化学习落地挑战赛

使用微信扫一扫进入小程序分享活动

比赛背景

强化学习在围棋、游戏等环境展示出超越人类的决策能力。为促进强化学习在真实场景的应用,江苏省人工智能学会联合南栖仙策发起此次竞赛。竞赛提供了高度仿真的决策应用场景,并要求参赛者按照真实场景的应用需求,仅从一部分历史数据中学习最优决策。比赛应用场景描述如下。

商品促销是企业营销的重要手段之一,如何精确制定促销方案,即在保障消费者权益的同时拉动消费需求、提高企业经营效益,是AI决策发挥能力的空间。与此同时,由于市场环境的快速变化和内外因素的高不确定性,促销策略往往会带来难以预估的用户反馈,企业会需要为此付出大量精力做高频精细化的策略调整,这一诉求会对AI的决策能力提出挑战。

在本次挑战赛中,主办方根据真实业务场景构建了高度仿真的决策环境。由于实际应用的条件限制,不佳的促销决策投放将造成严重损失。因此,参赛选手只允许在主办方提供的历史数据中学习,这些历史数据记录了过往促销决策与用户的交互反馈。参赛选手需要建立用户平等的促销策略模型,提交的策略模型将在仿真消费环境中进行促销投放测试,虚拟消费者会对促销策略进行反馈,以最终的虚拟促销投入产出结果来评估策略得分。


报名内容

1、报名方式,登录比赛官网【https://codalab.lisn.upsaclay.fr/competitions/823】,完成个人信息注册,即可报名参赛;选手需保证报名的个人信息完整,真实、有效,组委会有权取消不符合条件队伍的参赛资格及其奖励。

2、选手可单人成队或最多不超过5人组队参赛,每位选手只能加入一支队伍。

注:由于Codalab系统的机能限制,每支参赛队伍请点击此处登记队伍信息,后台工作人员会根据信息设置队伍,并关闭队员的提交权限。本次比赛仅能由队长提交结果。

3、报名、组队变更截止时间均为2022年01月25日00:00 AM (UTC+8)。


比赛节点

图片1.png

1、报名成功后,自2021年12月25日10:00 (UTC+8)起,参赛队伍可通过比赛平台下载数据,本地调试算法,通过平台在线提交策略模型进行策略评估。

2、初赛于2022年01月25日00:00 (UTC+8)评测结束。请参赛队伍于2022年01月24日00:00 (UTC+8)至2022年01月25日00:00 (UTC+8)期间,上传最终策略模型。主办方会依据测试环境的测试结果进行比分排序,在12月25日15:00公布初赛结果和复赛资格名单,初赛比分前30%的队伍将有资格进入复赛。

3、进入复赛队伍通过比赛平台下载新提供的更大规模的用户数据,本地调试算法,通过平台在线提交策略模型进行策略评估。

4、复赛于2022年02月26日00:00 (UTC+8)评测结束,请参赛队伍于2022年02月25日00:00 (UTC+8)至2022年02月26日00:00 (UTC+8)期间,上传最终策略模型。主办方会依据测试环境的测试结果进行比分排序,2022年2月26日15:00公布复赛结果,形成最终排名,并取Top5队伍作为获奖队伍。


参赛规则与方式

1、参赛对象

来自国内外高等院校、科研单位、互联网企业的个人和团队均可报名参赛。

注:大赛主办和技术支持单位如有机会接触赛题背景业务、产品、数据的员工不得参加比赛。

2、参赛规则

(1 )所有参赛者均需在管理系统中进行报名(主办方人员不得参加本次比赛)。

(2)参赛者在管理系统内组成团队。每个团队不得超过5名成员。每个团队都需要任命一名队长。团队名称不应超过15个字符。

(3)每个参赛者只能加入一个团队。注册多个帐户来加入多个团队将导致所有相关团队取消参赛资格。

(4)比赛不限制参赛者使用的技术方法。

(5)除赛事主办方提供的数据集外,不得使用任何外部数据。

(6)每个团队都可以通过平台提交策略模型。每个团队每天最多提交测试1次。每次提交的文件大小不应超过200MB。运行时间有30分钟的超时限制。

(7)比赛组织者保留在其认为必要时更新比赛时间表和规则的权利。

(8)本次比赛不收取任何报名费用。

3、奖励规则

根据复赛最终成绩,主办方将为得分Top5的有效参赛队伍颁发证书、奖杯和礼品。

注:获奖团队需提供完整的技术方案说明书、训练代码和策略模型,方为有效参赛队伍,可具有获奖资格。


比赛交流

1、登录比赛网站报名:https://codalab.lisn.upsaclay.fr/competitions/823

2、官方QQ交流群:861711940【AI营销策略家】 

 赛事进程、赛事结果、技术交流、比赛答疑尽在“AI营销策略家”QQ群。

1.png

      官方QQ交流群:861711940   

2.png

官方微信公众号:POLIXIR

3、官方论坛:http://deeprl.neurondance.com/t/offlinerl【赛题和数据说明详见论坛】

4、官方邮箱:offlinerl@polixir.ai


赛题与数据

【比赛数据说明】

当前,各商家正面临着从以往针对消费者个性化促销到平等化促销的过渡转变。此前,如图1所示,商家针对不同消费者投放了不同的促销折扣,由此收集到个性化促销及消费者反馈的数据。而如何基于此类历史数据,来制定出未来对于消费者进行平等式的促销决策,即如图2所示,为每一个消费者发放相同的促销激励,是各商家面临的严峻挑战。因此,本比赛的目的旨在通过开放部分个性化促销形式的交互历史数据,由各参赛队进行策略学习,从而制定出面向消费者的平等促销策略。

4.png

图1(上图)对于每个用户发放不同促销动作及各消费者反馈数据流程图。

离线数据来自此过程产生的历史2个月时期的“促销动作-用户动作”的交互数据。

3.png

图2(上图) 对于每个用户发放相同促销动作及各消费者反馈数据流程图。


比赛所开放的数据是历史2个月的投放数据,其中包含对于每个用户发放的个性化促销决策以及消费者的相应反馈,以csv格式文件存储。初赛阶段,所提供的数据包含1,000位虚拟消费用户的“促销-消费”交互数据。复赛阶段,所提供的数据包含10,000位虚拟消费用户的“促销-消费”交互数据。

注:该数据权利归主办方所有,仅用于本次比赛,参赛者不得对该数据进行传播。

【离线数据】

csv文件列名说明如下:

1、【index】:用户ID。

2、【day_deliver_coupon_num】:营销平台当天发放的优惠券张数。注意,每张优惠券的有效期为当日。

3、【coupon_discount】:营销平台当天发放的优惠券折扣。

4、【day_order_num】:用户当天订单次数。优惠券默认会随着订单使用,直到优惠券用完。

5、【day_average_order_fee】:用户当天所有订单折扣前的平均金额。

6、【step】:天数,范围0-59。

7、【date】:日期,范围为2021/03/19~2021/05/17。

 例如,对于用户ID 0,部分数据内容如下图所示:

5.png

以第一行为例,该行数据说明 2021年3月19日为用户发放了0张优惠券(此时折扣率无效),该日用户消费了0单。次日(第二行),发放给该用户2张65折优惠券,该日用户消费了1单,折扣前订单金额为33.5元。

【策略测试过程】

参赛者的策略将在用户环境中进行从2021年5月18日开始的交互测试。

1、初赛阶段将进行未来14天(即5月18日到5月31日)的1,000名虚拟用户的“促销-消费”交互测试,测试结果将反馈给参赛者,测试得分也会显示在排行榜上。

2、复赛阶段提交的策略模型,将反馈未来14天(即5月18日到5月31日)10,000名虚拟用户的“促销-消费”交互测试,并按该测试结果显示在排行榜上。

3、复赛最终结果,是对最终提交的策略在未来30天(即5月18日到6月17日)通过10,000名虚拟用户进行评估的结果。最终提交的策略即是在复赛最后一日所提交的策略模型。

根据参赛队伍所提交的策略在测试环境中的测试结果,在排行榜中实时更新排名,需要强调的是,每支队伍每天仅限提交一次。

【评价规则】

奖赏目标为:在测试期内,在Total_ROI>=6.5的前提下,最大化Total_GMV。

注:初赛阶段评估在仿真环境中测试14天,复赛阶段评估在仿真环境中测试14天,复赛阶段最终提交的策略评估在仿真环境中测试30天。若Total_ROI<6.5,则得分为0,否则得分为Total_GMV值。

以一个用户一天为例,相关定义为:

①优惠订单数(coupon_order_num):

coupon_order_num = min(day_deliver_coupon_num, day_order_num)

②成本(coupon_order_fee):

coupon_order_fee = coupon_order_num×day_average_order_fee ×(1- coupon_discount)

单人营收(Per_GMV):

Per_GMV = day_order_num×day_average_order_fee - coupon_order_fee

④总营收(Total_GMV):

Total_GMV = 所有用户所有天(14或30天)的Per_GMV之和

⑤总成本(Total_Cost):

Total_Cost = 所有用户所有天(14或30天)的coupon_order_fee之和

⑥总盈利率(Total_ROI):

Total_ROI = Total_GMV / max(Total_Cost, 1)

优惠券的作用规则如下:

1)每张优惠券的有效期都是1天,过了有效期的券无法再使用。

2)用户一天内可以使用任意张数的优惠券。

3)当有优惠券时,订单自动使用优惠券。

【提交方式】

参赛者基于大赛提供的接口,上传测评代码以及相关模型压缩文件, 解压后项目最外层目录定义好入口文件policy_validation.py, 并根据我们提供的模板,实现抽象类PolicyValidation,完成policy_validation.py。

policy_validation.py内容及说明如下,参赛者主要需实现:

get_next_states (user_actions)

输入当天所有用户的动作,输出由参赛者自行定义的次日用户状态。

get_action_from_policy (user_states)

输入当天用户状态,由参赛者策略输出当天所有用户的促销动作。

平台的策略测试评估核心代码如下:【不放截图,社区支持插入代码】

Reference

Baseline方案:详见附件(插入附件)

SDK下载链接:https://revive.cn/

比赛平台:https://codalab.lisn.upsaclay.fr/competitions/823

活动主办方