DataLab:一站式数据科学智能体的构思与挑战
数据科学分析流程涉及取数、加工、可视化等多个阶段,依赖跨角色协作与多工具切换,而传统数据智能体聚焦单任务场景,难以应对企业级复杂需求。
DataLab通过整合LLM规划能力与混合编程Notebook界面,通过三大核心模块实现一站式数据科学智能体:
领域知识自动化生成:利用脚本与数据血缘构建知识图谱,提升NL2SQL等任务准确率;
结构化通信机制:基于有限状态机(FSM)实现多Agent高效协作;
上下文自适应管理:基于Notebook动态管理上下文,提升协作效率。
演讲大纲:
1. 业务背景
1.1 数据科学智能体痛点:跨角色协作断层、工具孤岛、领域知识缺失
1.2 LLM在数据科学中的局限与潜力:单任务优化 vs. 全流程统一
2. 方案选型
2.1 架构设计:LLM代理规划框架 + 混合编程Notebook
2.2 核心模块:领域知识增强、多Agent协作、Notebook上下文管理
3. 落地挑战
3.1 挑战1:企业级数据表语义歧义(如“prod_class4_name”映射“收入”)
3.2 挑战2:多模态信息共享冗余(SQL结果传递至可视化代理)
4. 解决思路
4.1 知识生成:基于脚本历史的Map-Reduce式自动化提炼
4.2 通信协议:结构化信息单元(Data Source/Role/Action)与共享缓冲区
4.3 上下文优化:依赖图剪枝与任务类型适配
5. 未来规划
5.1 Human-in-the-loop的方式增强自动化数科解决方案的成功率
6. 总结
DataLab的价值:统一流程、企业级知识沉淀
听众收益:
1. LLM如何从单任务工具升级为全流程协作平台,打破角色与工具边界。
2. 企业级数科场景下领域知识自动化生成的设计范式。
3. 基于Notebook的混合编程平台以及上下文管理策略。
侯忱,腾讯大数据算法研发工程师,2020-2023年在腾讯大数据开展隐私计算研发工作,曾获2020年iDash冠军。2023年至今,作为核心成员参与腾讯大数据的智能数据分析与交互式数据开发能力建设,搭建数据领域Agent开发服务平台。DataLab 论文(ICDE 2025 Industry Track)作者之一。