使用微信扫一扫分享到朋友圈
使用微信扫一扫进入小程序分享活动
于中国科学院计算技术研究所获得博士学位。他的研究方向涵盖大语言模型、多模态大模型、AI for Data Science。相关研究成果在 NeurIPS、ACL、ICLR 等国际人工智能与自然语言处理会议发表论文30余篇,开源的多语言大模型、多模态大模型、数据科学大模型在 GitHub 社区累计获得7000+星标。他长期担任 CCF-A 类国际会议 ACL ARR 的领域主席和责任编辑。个人主页:zhangshaolei1998@github.io。
AskTable 创始人,前阿里云 PolarDB 创始人之一。前火山引擎数据库产品负责人。
赵恒,Datus.AI 的创始人,StarRocks TSC member。从阿里的数据库开发工程师到多个开源项目的连续创业者。
华中科技大学计算机本硕,毕业在阿里巴巴从事分布式数据库开发,后在数据领域持续创业,曾获得德迅等VC的投资,最终公司被收购。近5年作为创始团队成员负责了开源数据库StarRocks从0到1的产品设计,并专注于北美数据分析市场的开拓和研究。
DeepAnalyze:大模型到数据科学家的Agentic进化之路
随着数据量爆炸式增长,数据科学家将大量时间耗费在数据清洗、建模与可视化等重复性工作上。我们团队探索“AI for Data Science”的新方向,提出并开源了全球首个面向数据科学的Agentic LLM——DeepAnalyze。不同于传统的workflow-based方案,DeepAnalyze通过真实场景下的agentic training,使模型具备“自主思考与行动”的能力,可像人类分析师一样独立完成数据准备、分析、建模与洞察。项目开源后迅速获得社区关注,GitHub Star超1500,显著提升数据分析效率与智能化水平。我们相信,DeepAnalyze标志着数据科学正从“自动化工具”迈向“智能协作伙伴”的关键进化。
本次报告将全面解析 DeepAnalyze 的核心技术路线,展示其如何让 AI 真正成为数据科学家的智能助手,并为AI驱动的数据分析未来带来全新启发。
演讲提纲:
一、业务背景与研究动机
1. 数据科学的瓶颈:分析师时间大量消耗在数据清洗、特征工程与可视化等低效环节。
2. 现有自动化方案的局限:Workflow-based Agent 需精细prompt工程、缺乏泛化能力与适应性。
3. 研究愿景:构建能够自主理解、决策与执行数据分析任务的 Agentic LLM,实现从“自动化”到“智能化”的跃迁。
二、方案选型与系统设计
1. 理念提出:以“Agentic LLM”替代传统workflow,让模型具备自主规划与任务执行能力。
2. 技术架构:Agentic LLM
3. 训练策略:在真实环境中进行强化学习式训练。
4. 数据合成:覆盖结构化与非结构化数据分析任务。
三、落地挑战
1. 复杂任务拆解与上下文依赖:如何让模型在长链推理中保持一致性与可解释性。
2. 数据安全与隐私保护:在开放环境下处理真实业务数据的安全策略。
3. 性能与资源权衡:平衡自主决策能力与计算成本。
四、核心解决思路
1. 任务自演化机制:通过自我反思与重规划(replanning),实现多阶段数据任务的自主推进。
2. 可微调的领域适配框架:允许在金融、医疗等垂直领域进行轻量化再训练。
3. 工具协同体系:构建统一的“数据科学工具API层”,提升Agent与外部分析环境的协作效率。
五、应用成效与社区反馈
1. 开源成果:模型、代码、Demo 全面开放,支持本地部署。
2. 社区反响:GitHub Star 超1500,形成多领域开发者生态。
3. 效果验证:在多类真实数据分析任务中,DeepAnalyze 显著优于传统自动化Pipeline方案。
六、未来规划
1. Agentic LLM范式研究:推动AI从任务执行者向智能研究者演进。
2. 跨领域协同分析:拓展至多模态数据(文本、表格、时序、图像)的统一分析。
3. 开放协作生态:与高校、企业共建Agentic数据科学平台。
七、总结与启发
1. 关键观点:DeepAnalyze 展示了AI驱动数据科学的“自主智能”方向。
2. 技术启示:Agentic训练是LLM走向专业领域能力化的关键路径。
3. 愿景展望:让AI真正成为数据科学家的合作伙伴,而非仅仅是工具。
听众收益:
1. 认知升级:理解“Agentic LLM”的范式转变
听众将深入理解从传统“Workflow-based Agent”到“Agentic LLM”的演进逻辑,认识AI如何从被动执行工具进化为具备自主规划与反思能力的智能体,为AI在数据科学中的角色转型提供全新思路。
2. 方法启发:掌握AI驱动数据分析的新路径
通过DeepAnalyze的技术路线与训练框架,听众能系统性了解如何构建具备数据理解、建模、分析和可视化全流程能力的智能系统,为企业或研究机构探索AI自动化分析方案提供可复用的技术参考。
3. 实践借鉴:获得可落地的系统实现经验
听众可借鉴DeepAnalyze在落地过程中的架构设计、Agentic training策略及任务自演化机制,提升对AI在真实业务场景中“从原型到产品”的实现路径的理解,助力自身项目在智能化方向上突破。
开源 Data Engineering Agent 的成长之路
演讲提纲:
- AI时代数据工程的挑战
- Datus agent的架构设计
- Datus agent的实战与落地
- Data engineering agent的未来发展
听众收益:
- 理解Data engineering agent 的核心理念与价值,认识数据工程从“建表和跑数”向“可交付的SubAgent”转变的趋势。
- 学会如何从表、指标、SQL历史中自动构建数据上下文(Data Context),提升 NL2SQL / 分析问答的准确性与可落地性。
- 理解如果通过feedback loop持续构建可提升的 Data context 和 模型。
打造沉浸式的 Vibe Analyzing 体验——AI 驱动的数据分析新交互
在传统的数据分析流程中,分析师需要在复杂的报表、SQL 与图表工具间切换,体验割裂、效率低下且门槛高。AskTable(察言观数)基于 Agent 技术,重构了数据分析交互:通过自然语言提问、AI 自动生成 SQL、表格与图表,并以沉浸式的「AI 数据画布」界面,带来连续、直观的分析体验。
演讲提纲:
- 传统分析体验的痛点与局限
- AskTable 的 Agent/Data 技术基建
- 沉浸式 AI 数据画布的设计理念
- Vibe Analyzing 的落地案例
DeepAnalyze:大模型到数据科学家的Agentic进化之路
于中国科学院计算技术研究所获得博士学位。他的研究方向涵盖大语言模型、多模态大模型、AI for Data Science。相关研究成果在 NeurIPS、ACL、ICLR 等国际人工智能与自然语言处理会议发表论文30余篇,开源的多语言大模型、多模态大模型、数据科学大模型在 GitHub 社区累计获得7000+星标。他长期担任 CCF-A 类国际会议 ACL ARR 的领域主席和责任编辑。个人主页:zhangshaolei1998@github.io。
开源 Data Engineering Agent 的成长之路
赵恒,Datus.AI 的创始人,StarRocks TSC member。从阿里的数据库开发工程师到多个开源项目的连续创业者。
华中科技大学计算机本硕,毕业在阿里巴巴从事分布式数据库开发,后在数据领域持续创业,曾获得德迅等VC的投资,最终公司被收购。近5年作为创始团队成员负责了开源数据库StarRocks从0到1的产品设计,并专注于北美数据分析市场的开拓和研究。
打造沉浸式的 Vibe Analyzing 体验——AI 驱动的数据分析新交互
AskTable 创始人,前阿里云 PolarDB 创始人之一。前火山引擎数据库产品负责人。