以智能化评测赋能数据分析:DeepInsight自动化评测集生成与实践
业务背景:在蚂蚁的数据分析智能化场景下,缺乏一个全面可信的评测集来衡量当前数据分析智能化的水位,尽管业界中文Text2SQL领域存在一些开源评测集,但无法满足蚂蚁复杂的取数分析智能化场景,因此亟需构建一套持续演进的高质量、多样化、覆盖全面的评测Benchmark。
方案选型:我们从特征选取,数据集覆盖等维度对比了业界Text2SQL领域的开源评测集,并自主设计了一套满足蚂蚁场景的自然语言取数的标注特征体系,以及基于这套标注特征的自动化评测集构建方案。
落地挑战:如何选取关键特征进行标注?如何自动化生成高质量、场景覆盖全面的评测集仓库?如何设计一套机制高效地构建并持续迭代我们的评测体系?
解决思路:自主构建一套自动化/智能化的标注和评测方案,并通过实验来验证方案的有效性。
演讲提纲:
1. 介绍当前AI+BI领域评测的现状与挑战
- 当前智能化评测的现状和特点
- 蚂蚁复杂业务场景下的特殊需求
2. 业界方案对比:
- 对比行业中/英文Text2SQL领域的开源评测集方案介绍
- 介绍当前业界评测方案的局限性
- SPIDER2:英文评测集,难度分级机制颗粒度较粗
- CSPIDER:SPIDER的翻译,但未优化中文语法习惯
3. 方案设计及优势:
- 介绍自主构建的特征标注体系和自动化评测集构建
- 介绍当前方案设计和行业其它方案对比的优势
4. 方案效果:
- 介绍方案落地的成果及对智能化效果的驱动
- 关键指标及实验结果
5. 方案迭代方向:
- 介绍智能化评测的持续探索
- 介绍未来的迭代思路
听众收益:
- 一种自然语言取数的标注方法的设计思路:对比业界其它Text2SQL的特征标注方案,了解我们方案的差异性和背后的思考。
- 一种评测集生成的自动化设计方案:了解评测集自动化设计的思路重点和难点。
蚂蚁集团产品经理,蚂蚁数据分析平台评测负责人,主导DI智能化的评测体系构建,及评测集开源项目建设。蚂蚁数据分析平台产品专家,负责DI数据准备,报表等核心模块的智能化产品建设。已获得1项国家专利授权,并有3篇专利申请中。