DataFunCon2023·深圳站：大模型时代，Data+AI的变与不变

免费报名中

42194 人关注

时间 2023-11-24 09:00 ~ 11-25 17:20

地址广东深圳市深圳机场凯悦酒店

活动由 DataFun 主办

大会倒计时：

天

时

分

秒

免费报名中

42194 人关注

微信分享

使用微信扫一扫分享到朋友圈

活动分享

使用微信扫一扫进入小程序分享活动

会议介绍

会议介绍的副本.jpg

会议亮点

会议亮点.jpg

变.jpg

不变.jpg

峰会主席

肖仰华博士

复旦大学教授、上海市数据科学重点实验室主任

复旦大学教授、博导，上海青浦复旦未来技术研究院副院长，上海市数据科学重点实验室主任。长期从事大数据、认知智能研究。荣获ICDE2024十年影响力论文奖、ACL 2025 & 2023杰出论文奖。发表 CCF-A 、B 类等论文 400 余篇。出版学术专著与教材五部。入选东方英才拔尖项目。完成近百项政府及人工智能头部企业研发项目。荣获包括华为、阿里、美团等机构授予的几十项科研奖项。

李奘

腾讯 PCG 技术副总经理

李奘，腾讯PCG技术副总经理。宾西法利亚州立大学博士，长期致力于机器学习、大数据、数据科学和增长技术体系与方法论的研究和应用。曾在硅谷Cisco，Linkedin等公司任职，回国后在滴滴任杰出算法工程师负责增长、数据挖掘、NLP、知识图谱和智能客服等方向。当前在腾讯负责PCG的推荐中台、画像中台和数据治理平台等多个项目，并负责PCG的AI委员会的规划发展。

罗义云

阿里云资深技术专家，阿里云人工智能平台PAI工程技术负责人

选题策划委员会

蔡适择

顺丰科技大数据总监

负责顺丰大数据平台底盘建设及产品化工作，完成顺丰大数据平台从0至1的整个建设过程，之前负责京东实时计算平台从0至1的整体建设。在大数据平台、物联网、边缘计算领域有丰富的实践经验，深耕大数据平台存算分离、实时数仓、融合计算等技术，致力于大幅降低数据开发及应用门槛，让大数据技术成为一项人人可用、可快速应用的技术。

常建龙

华为云大模型技术专家

华为高级研究员，百度奖学金(全球每年仅十人)，中科院优秀博士论文奖，中科院院长奖获得者。于2015年毕业于电子科技大学数学科学学院，2020年博士毕业于中国科学院自动化所模式识别国家重点实验室，主要研究通用AI算法和商业落地，二十多项研究成果发表于IEEE T-PAMI、IEEE T-IP、ACM Computing Surveys、NeurIPS、CVPR、ICCV、AAAI等国际顶级AI期刊会议，并成功应用于华为云为千行百业赋能。

陈祖龙

阿里巴巴企业智能算法负责人

个人介绍：阿里巴巴企业智能算法负责人，资深算法专家，浙江省人工智能协会智能制造分会百人专家，山东人工智能协会专家成员，中国“双法”学会数学建模分会理事，现负责面向大型企业的数字化智能文档、企业级办公助手以及法务等领域大模型相关工作，曾负责阿里巴巴飞猪算法（搜索、推荐、广告、供应链等）团队和淘宝首页人群个性化推荐，带领团队在业务相关技术走向国内外先进水平，在WWW、SIGIR、SIGKDD、ICDE、WSDM、CIKM、AAAI等国际顶级会议和VLDB、TITS、TOIS、ITOJ、TACL等国际顶级期刊发表论文40多篇等。

范涛

FATE开源社区开发专委会核心成员

他是FATE开源社区开发专委会核心成员，微众银行人工智能资深研究员，曾就职于百度，腾讯。一直从事人工智能，机器学习，联邦学习，大数据等领域的研发和应用落地。申请联邦学习相关技术专利100多项和发表多篇有影响力的学术论文。

雷小平

腾讯 IEG Global Senior Principal Data Engineer

IEGG 首席数据工程架构师，有超过10年的大数据架构和应用相关的经验，曾负责过QQ数据基础和应用平台从0到1的构建，腾讯公有云大数据产品技术架构的演进，目前负责 IEGG 数据团队技术架构优化相关工作。

李金龙

招商银行人工智能实验室主任

带领团队从事人工智能技术的研发以及在智能金融领域的应用。主持的科技项目荣获中国银保监会一等奖、中国人民银行科技发展二等奖两次、参与编写CF40《中国智能金融发展报告》各期编写、参与人工智能领域学术论文十余篇、国家专利数十项。

李钰

阿里云EMR负责人，资深技术专家

阿里云EMR研发团队负责人，资深技术专家，Apache Flink & HBase PMC Member，Apache软件基金会Member。

陶阳宇

腾讯机器学习平台部总监

个人介绍：中科大博士，15年机器学习、大数据、云计算相关领域经验，曾在微软MSRA、阿里云从事大规模分布式系统研发，现任腾讯TEG机器学习平台部总监，腾讯-太极机器学习平台研发负责人，研发的腾讯Angel系列AI框架，支持了腾讯海量数据、万卡规模GPU集群的模型训练、推理部署，服务了腾讯混元大模型、广告/内容推荐、金融风控等业务场景。

王海华

货拉拉大数据基础架构负责人、大数据架构师

王海华，货拉拉大数据架构师/基础架构负责人，现在负责公司大数据部门整体稳定性、安全、成本和基础架构团队。曾在滴滴/饿了么/拼多多经历和负责过几千到几万台的超大规模数据平台架构。7年以上大数据架构经验，主要研究方向是大数据安全、大数据平台产品和系统架构、计算机体系结构和分布式系统等，在以上领域具备大规模的落地实践经验。腾讯云TVP，曾经多次在QCon/SACC/DTCC等著名技术会议上进行技术分享。

王文广

达观数据《知识增强大模型》作者

王文广，《知识增强大模型》和《知识图谱：认知智能理论与实战》作者，高级工程师，浦东新区“明珠计划”菁英人才，浙江大学硕士，曾任达观数据副总裁、Kavout联合创始人和首席架构师，盛大创新院架构师和百度高级工程师等。曾获得广东省科技进步奖二等奖，上海市计算机学会科技进步奖二等奖和上海市浦东新区科技进步奖二等奖。人工智能标准编制专家，浦东新区首席技师、腾讯云最具价值专家TVP、中国人工智能产业发展联盟突出贡献个人。参编《数字数字产业化体系、技术与落地实践》，《新程序员 · 人工智能新十年》顾问专家和文章作者，《新程序员 · 大模型时代的开发者》封面人物和文章作者，专注于大模型、知识图谱、通用人工智能 AGI、大模型、AI 大工程、NLP、认知智能、强化学习、深度学习等人工智能方向，并在金融、制造业、新能源等领域的人工智能产业落地具有丰富的经验。

上海市人工智能技术标准化委员会委员、上海科委评审专家、中国计算机学会（CCF）高级会员、中文信息学会（CIPS）语言与知识计算专委会委员、中国人工智能学会（CAAI）深度学习专委会委员、上海市人工智能技术协会专家委员会委员，参与编制十多项知识图谱、大模型、自然语言处理等国家、团体和上海标准，申请有数十项人工智能领域的国家发明专利，在国内外知名期刊会议上发表有十多篇学术论文。

曾带队获得国内国际顶尖算法竞赛 ACM KDD CUP、EMI Hackathon、“中国法研杯”法律智能竞赛、CCKS 知识图谱评测的冠亚季军成绩。曾获 BroadView2023“技术成长领路人”、2022 年度电子工业出版社博文观点“优秀作者”等称号，2021 年度浦东职工科技创新英才优秀奖。被聘为上海市质量和标准化研究院培训中心企业标准化总监高级研修班教课讲师，高校学生人工智能训练营（同济大学）特邀企业导师，浙江大学中国数字贸易大讲堂讲师团专家等。

吴泽君

TME腾讯音乐数据基建负责人

大数据平台建设领域拥有10年工作经验，现负责腾讯音乐集团智能计算分析、数据治理和机器学习平台建设。擅长设计开发OLAP、实时计算、大数据治理、降本增效、机器学习推理加速等方案架构设计和开发。

杨振宇

OPPO 小布智能中心高级技术总监

杨振宇，OPPO小布智能中心认知计算技术负责人，深圳市高层次人才计划入选者，于中国科学技术大学获得计算机学士和博士学位。近年来主要从事自然语言处理、对话式AI相关算法研究与落地应用工作。2015年之前任教于国防科学技术大学，学术论文代表作单篇他引超过800次，入选ESI Top 0.1%热点论文。所从事科研工作曾获高等院校（科学技术）科技进步二等奖1次、湖南省科技进步二等奖2次。2015年后加入工业界，专注于对话式AI关键算法技术研发与落地，2018年加入OPPO主导NLP与对话算法工作，帮助公司级战略产品小布助手实现从零到月活过亿的突破。

殷泽龙

（前）迷你创想算法负责人

毕业于哈尔滨工业大学。曾就职于迷你创想、腾讯，参与过多个增长和计算广告相关项目。

喻宏勇

腾讯搜索推荐 Senior Tech Lead

于溦

广州致景科技金融大数据负责人

哈尔滨工业大学硕士，平安国际智慧城市AI专家，负责构建平安法律知识图谱，法律问答机器人;平安银行科技开发中心智慧风控风险模型负责人，主要负责小微企业风控建模、物联网数据治理及金融知识图谱建设；广州致景科技金融大数据负责人，主要负责纺织行业大数据、产业平台小微企业金融赋能及风险防控。

赵田

腾讯科技研发总监

工作 12 年，目前就职腾讯 PCG 大数据平台部。曾经就职于 IBM，有丰富的 AI 领域效能工具产品的开发经验（推荐调试工具、特征分析工具、模型分析工具、AIOps 智能洞察等），近几年重点在负责 A/B 实验中台的研发，赋能组织和产品高效的进行数据驱动决策。

郑德荣

平安人寿 AI技术研发团队分组经理

2012年硕士毕业于哈工大计算机专业，先后在百度和微众银行从事机器翻译、搜索推荐、对话机器人等算法研发工作；现任平安人寿AI技术研发团队分组经理，主要负责续期数字化、AI外呼、推荐等AI研发相关的工作。

出品人

陈峭霖

腾讯游戏首席数据科学家

北京大学学士，UCLA生物统计系博士，2013年底毕业后在诺华制药任首席统计师，从事临床试验统计分析和医药大数据研究；2017年加入SparkBeyond任资深数据科学家, 为世界五百强企业提供可落地的大数据解决方案。2018年加入腾讯游戏数据挖掘团队，目前致力于游戏出海领域的机器学习、推荐系统、用户画像、知识图谱等的研究和应用，同时打造业界领先的游戏领域通用数据挖掘平台。

董旭

微信专家工程师，微信数仓技术负责人

个人介绍：微信数仓技术负责人，大数据技术专家，专注于大数据平台建设和 OLAP 数仓技术工作，曾发表多篇专利和论文；近年主导建设了微信亚秒级实时数仓。

费浩峻

奇富科技首席算法科学家

费浩峻，奇富科技首席算法科学家，数据智能部、大模型部总经理。全面负责 360数科数智化工作的研究和落地。深耕智能增长技术十余年、金融科技的创新者，曾任百度金融/度小满主任架构师，腾讯专家研究员。长期投身于广告、检索和增长等应用研究领域，专注于大数据、人工智能研究方向，对技术如何驱动业务发展有着丰富的经验和独到的理解，拥有大数据、NLP、计算广告、信息处理等专利二十余项。本科毕业于华中师范大学，硕士毕业于北京大学。2021年加入360数科，从数据安全、数据生态、大模型计算着手, 推动360数科的人工智能技术体系不断完善升级。围绕金融科技场景，带领人工智能团队打造了新一代的智能增长平和智能征信中台，带领团队推出业内首个金融垂类大模型，以大模型为基础在对话机器人、客服管理、用户经营等方向进行了全面的升级。

黄帆

腾讯专家研究员

博士毕业于北京邮电大学，目前就职于腾讯公司，担任算法专家研究员，从事短视频推荐算法相关工作。拥有十余年算法从业经验，曾先后就职于华为和阿里巴巴。至今累计发表学术论文20余篇，申请发明专利40余项。

焦学武

百度主任架构师

焦学武，毕业于中科院计算所。现任百度主任架构师，百度商业体系机器学习平台负责人。先后负责百度凤巢检索架构、模型训练平台等工作。带领团队完成了具备业界开创性的DNN模型框架PaddleBox、图模型框架PGLBox、特征框架FeaBox、自动寻优平台AutoML等工作。曾多次获得最佳百度人、百度总TC技术创新奖、商业体系最佳项目奖、业务进攻奖等荣誉，在KDD、BigData等人工智能顶级会议上发表多篇论文。

景生军

YY直播大数据负责人

多年大数据从业经验，对数据基础架构服务、数据资产化、数据应用具有深刻的洞见。

李永

阿里云人工智能平台PAI引擎负责人

个人介绍：阿里巴巴机器学习平台资深技术专家，长期参与超大规模模型训练、异构资源调度、MLOPS 等领域的研发。

刘旭

淘天集团内容技术负责人

刘旭，内容技术负责人，负责大淘宝内容平台，以及多个内容导向型业务，例如淘宝信息流、淘宝逛逛等，核心能力包括音视频频编解码器、RTC、渲染、多模态内容理解、AIGC、创作者工具和媒体资产管理等。曾为达摩院机器人实验室总监，负责专注于配送服务机器人研发、产品规划、业务拓展等工作。曾为中国研发中心助理总经理，领导了多个产品和工程团队的产品规划、管理、系统设计验证和系统架构等工作。

刘一鸣

阿里云大数据产品负责人

个人介绍：刘一鸣，目前负责阿里云ODPS等自研大数据产品，主攻云原生一体化数仓引擎能力的演进和商业化，在数据仓库、大数据计算、开源大数据行业有15年以上工作经验。原Kyligence 副总裁，Apache Kylin PMC。

演讲题目：阿里云大数据AI一体化最佳实践

演讲简介：Data+AI时代，大数据平台该如何建设？我们认为需要具备计算效率、开发效率、处理效率为一体的高效能力，才能保障企业AI时代下的业务创新。阿里云提供了从数据集成、清洗、建模、计算到服务的大数据+AI整套产品解决方案。同时，阿里云自研大数据平台 MaxCompute 推出分布式计算框架 MaxFrame，100% 兼容 Pandas 等数据处理接口，打通数据管理、大规模数据分析、处理到 ML 开发全流程，打破大数据及 AI 开发使用边界，大幅提升开发效率，助力企业快速构建AI时代的基础设施。

万里进

百度主任架构师

万里进，毕业于中山大学，现任百度主任架构师。深耕互联网广告系统10多年，经历百度凤巢系统从统计模型发展到AIGC大模型的全过程，负责广告系统的分布式KV存储、机器学习预估、广告检索引擎以及广告系统云原生改造等多个核心子系统的技术研发，目前在主导凤巢AIGC生成式大模型在线推理加速的核心技术探索和重点应用落地。

王海华

货拉拉大数据基础架构负责人、大数据架构师

王鑫

蚂蚁集团大数据部实时数据负责人、ASF Member

ASF Member, Apache Storm & Incubator PMC Member, Apache RocketMQ & IoTDB & StreamPipes Committer，蚂蚁集团大数据部实时数据负责人。

王勇

微信数据科学专家，微信实验平台负责人

微信实验平台负责人，数据科学专家，同时负责工程和算法团队，发表多篇实验领域顶会文章。

吴小前

滴普科技 CTO

吴小前，滴普科技CTO，资深技术专家，负责前沿技术研究和公司产研体系架构设计。曾就职于华为、Amazon，拥有大型平台类软件产品架构体系研发经验。作为核心成员，吴小前主导实现Kappa Plus架构的实时分布式数据分析架构，规划并设计了流批一体、湖仓一体的云原生数据智能平台，首次引入领先的MDS架构，打造中国版的低成本、高性能、易使用的实时湖仓平台。目前致力于研发搭建基础算力平台，打造Deepexi企业大模型及模型工具链应用。吴小前曾荣获“2021年度海纳奖——分布式数据库十大先锋人物”。

孙伟

快手资深数据架构师

快手商业创新数据负责人&数据治理负责人，曾就职于百度、阿里巴巴，擅长数据体系、数据产品、数据化运营、数据管理等大数据解决方案的架构及建设。

尹正

中国信息通信研究院云计算与大数据研究所高级业务主管

数据资产管理研究员，中国信息通信研究院云计算与大数据研究所高级业务主管，大数据技术标准推进委员会—人工智能大数据工作组组长，主要从事前沿数据管理领域研究与布道工作（DataOps、Data Fabric、人工智能数据等）。曾主导多项相关领域的国际、行业、团体标准立项，白皮书、研究报告编制，牵头多家行业头部企业的相关领域咨询与测评工作。

张靖

bilibili 数据平台部高级技术总监

bilibili数据平台部部门负责人。先后在猎豹，阿里游戏，哔哩哔哩工作，目前在哔哩哔哩负责大数据平台建设以及主站数据建设，长期关注微服务，高可用架构，大数据业务技术方向。

周强

OPPO 数据架构负责人

个人介绍：周强，曾任职于土豆网、支付宝、阿里云等公司，长期从事算法平台、数据平台的研发工作，在大数据平台建设方面有丰富实践经验。目前任职 OPPO 数据架构负责人，负责智能湖仓、Agent 智能体应用建设和技术演进。

活动嘉宾

肖仰华博士

复旦大学教授、上海市数据科学重点实验室主任

杨青

度小满技术委员会执行主席、数据智能应用部总经理

个人介绍：杨青，度小满技术委员会执行主席、数据智能应用部总经理，硕士毕业于清华大学计算机系，曾就职于百度、阿里，从事 NLP、搜索、推荐、大数据架构等相关方向的研发工作。2018 年初加入度小满金融开始组建数据智能部，从0到1建设度小满金融的智能引擎的核心算法，深耕计算机视觉、自然语言处理、图模型、机器学习、因果推断等技术能力，多篇文章被EMNLP、ACL、CIKM等国际顶会收录，“智能化征信解读中台”工程荣获吴文俊人工智能科技进步奖。相关技术广泛应用于度小满营销、经营、风控、反欺诈全流程业务场景，为上千万客户提供着稳定、安全的金融服务。目前专注于AIGC在金融场景中的落地，基于度小满模型即服务“MaaS”的模式积极探索文生图、数字人与生成式大模型的应用转化。已于年初带领团队发布国内首个千亿中文金融大模型“轩辕”。

演讲题目：金融大模型技术创新与应用探索

演讲提纲：

1. 大模型简介

2. 开源轩辕大模型详解

3. 金融大模型应用探索

4. 总结与展望

听众收益：详细了解国内开源金融大模型的研发过程，了解大模型在金融行业中如何应用，对自研大模型以及使用大模型都有帮助。

罗义云

阿里云资深技术专家，阿里云人工智能平台PAI工程技术负责人

赖洪科

OPPO 互联网应用研发平台总经理

个人介绍：OPPO互联网应用研发平台及推搜算法部总经理，有超过14年的互联网广告研发经验，主导OPPO广告播放系统、搜索引擎等多项研发建设，也同时负责厂商应用体系数据搭建等工作。目前负责OPPO软件商店、游戏中心等研发工作，同时负责推搜部门整体技术探索及应用。

演讲题目：OPPO 应用分发在推荐领域提效上的实践与思考

演讲提纲：本次分享将为大家带来 OPPO 作为厂商在应用分发业务及推荐、大数据、算法领域上的一些差异化技术能力和思考，包含：

1. OPPO 应用分发业务场景介绍

2. OPPO 应用分发数据体系概况及架构

3. OPPO 在推荐领域提效的相关技术能力及实践应用

4. 未来在推荐领域及大数据领域的规划与方向

听众收益：

1. 了解 OPPO 在应用分发业务上的具体场景及厂商应用分发的差异化特点

2. 了解 OPPO 应用分发在推荐算法领域的技术能力、全场景数据价值及应用案例

3. 了解 OPPO 未来在端云协同、大模型等相关领域的方向

Alexis Rolland

Ubsoft China，Development Director

个人介绍：Alexis Rolland, 自2012年加入育碧，曾先后在大数据、数据分析和机器学习等领域担任多个关键职务。目前，作为La Forge中国团队开发总监，他领导着团队在技术创新领域迈出坚实的步伐。出于对新兴科学技术的执着追求，Alexis一直致力于架起学术前沿和视频游戏产业之间的桥梁，尤其在积极推动育碧生成式AI助力内容创作的革新中，发挥着关键的作用。

演讲题目：Pioneering 2D image generation for AAA games（助力3A大作：领跑2D图像生成技术）

演讲提纲： 本次演讲将介绍育碧（Ubisoft）在为3A游戏创建专有图像生成式模型方面的方法。演讲内容将包括以下部分：

• 为什么需要创建微调图像生成式模型

• 育碧的方法和方法论

• 介绍Caption Studio实用工具

• 展示图像生成式模型

听众收益：您将了解到育碧在微调图像生成式模型方面的实现方法和道德原则，及相关的指导方针和最佳实践。

个人介绍：曾在百度智能云、大数据等部门从事数据分析和服务、数据科学等工作，拥有十多年的开发和架构经验。当前负责字节跳动火山引擎 LAS 底层的湖仓一体加速引擎 Bolt 和 Presto 方向。

演讲题目：湖仓一体加速引擎 Bolt 及在字节跳动火山引擎 LAS 的应用

演讲提纲：Spark、Presto 等引擎原 Java 执行的性能优化进入瓶颈期，而基于向量化和编译优化的 native 引擎，可获两倍性能加速比，降低资源成本。Bolt 已经在字节跳动内部 SparkSQL、Presto 大规模上线，加速效果显著，其特色有：面向多场景统一加速、端到端向量化执行。本次分享将介绍 Bolt 的意义、架构和在火山引擎 LAS 产品的应用实践。

1. Bolt 的背景和意义

2. Bolt 的架构设计

3. Bolt 的核心特色

4. Bolt 在火山引擎湖仓一体产品 LAS 的实践

听众收益：

1. 了解基于向量化和编译优化的 Bolt 加速引擎，如何获得 2x 加速比和 40% 资源节约。

2. 了解火山引擎湖仓一体产品 LAS 的架构、特色及应用场景。

3. 了解 Bolt 在湖仓一体产品 LAS 的应用现状及主要收益。

王日宇

阿里云高级软件开发工程师

个人介绍：计算机科学与技术硕士，专注于大数据系统和 OLAP 数据库的技术研发工作，现在主要负责开源 StarRocks 项目内核开发。

演讲题目：基于 StarRocks 和 Paimon 打造湖仓分析新范式

演讲提纲：

1. 数据湖技术发展的演进介绍

2. 使用 StarRocks + Paimon 湖仓分析方案主要场景介绍

3. 使用 StarRocks 构建 Paimon 物化视图和数据湖分析的关键技术原理介绍

4. 使用 StarRocks + Paimon 湖仓分析能力的未来技术规划

听众收益：

1. 了解数据湖技术发展的演进

2. 了解如何使用 StarRocks + Paimon 构建湖仓分析方案

3. 了解 StarRocks + Paimon 湖仓分析的核心技术原理

邓琴丰

YY直播数据产品负责人

个人介绍：目前负责YY直播数据产品的总体规划，带领团队落地包括数据开发管理、数据治理、数据分析、数据服务、用户画像及运营分析等数据平台及应用产品；有10年+的大数据分析及产品经历。

演讲题目：YY直播业务指标治理实践

演讲提纲：烟囱式的需求开发沉积大量数据模型及数据报表；而业务指标管理存在技术口径和业务口径混用，同名不义及同义不同名等问题；通过业务指标的体系化梳理及构建，引入指标生命周期管理机制，清理融合存量数据模型及报表；最终面对业务用户，构建以指标目录为入口的自助购物式的数据获取及分析体验，提纲如下：

1. 存在的问题及原因分析

2. 业务指标体系化构建

3. 业务指标管理驱动数据治理

4. 自助购物式的指标分析

听众收益：

1. 如何梳理并构建业务指标体系？

2. 如何利用指标管理驱动数据治理？

3. 指标管理产品构建及运营的实战经验

杨剑

奇富科技高级算法总监

个人介绍：负责奇富科技风控、营销、获客等相关算法和数据挖掘业务。构建奇富科技大数据体系，大语言模型、图计算等技术框架。在意图识别、行为序列、图计算等算法上，带领团队进行算法创新，实现金融信贷领域的深度落地。多年从事信贷风控领域算法研究和实施，曾经负责全场景风控模型的建设、数据生态建设等。

演讲题目：业务理解和逻辑推理是金融行业大模型运转的动力

演讲提纲：金融行业几乎是众多行业中，最早进行数字化的行业，科技一直伴随着金融行业的发展，而大模型的运用将带来金融的科技属性的又一次飞升。金融行业的大模型和其他行业最大的区别，在于金融行业的业务复杂程度、行业经营规范的要求以及安全隐私保护上。并且金融场景中有很多业务判断要求十分严谨，容错率很低，对于当前大模型的能力是一个挑战。金融业务在实际经营过程中，不仅需要有总结归纳和表达输出的能力，更要具备逻辑推理的能力，而支持逻辑推理落实，并做出差异化的方法，是通过结合私有化的领域知识图谱构建的思维链、思维树或思维图。同时面对各类复杂金融业务场景，也不是单纯算力、数据和参数规模的比拼，而是要针对具体场景，利用对业务的理解，有区别化、精确化的挑选参与模型预训练、指令精调、进行RLHF所需的数据。产出的大模型所扮演的角色，也应该是单一或者有限几个领域的专家。具体内容包括：

1. 科技是金融行业发展的动力，大模型是助推金融科技能力提升的又一个助推器

2. 金融行业大模型的特殊性及其难点与挑战

3. 利用科技属性以及科技优势提升金融行业大模型效果

4. 面对挑战，金融行业大模型可以解决哪些问题

听众收益：

1. 理解金融行业大模型与其他行业的差异性

2. 理解金融行业大模型在落地过程中存在哪些难点

3. 理解如何发挥科技优势，提升金融行业大模型效果

4. 理解金融行业大模型在金融业务开展中扮演哪些角色

个人介绍：胡伟，百度资深研发工程师，百度大商业图模型方向负责人。

演讲题目：超⼤⾏为异构图的表征学习及应⽤

演讲提纲：

1. 背景和现状（面临的挑战）

2. 解决方案和技术创新

3. 收益和落地

听众收益：

1. 如何优化图存储

2. 如何加速图模型训练

3. 如何优化多机通信的性能

刘文强

腾讯 IEG Global Manager

个人介绍：刘文强在18年博士毕业之后加入腾讯，曾负责游戏领域知识图谱构建和应用。现任腾讯IEG Global算法中心NLP组长，主要负责多语言自然语言处理的算法研发以及在腾讯海外游戏的应用设计和开发工作。

演讲题目：Game+Agent 我们的初步尝试

演讲提纲：随着最新大语言模型，例如GPT系列，PaLM2的兴起，大语言模型强大的能力为AI Agent 的突破带来了契机。大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为Agent的核心大脑，就可以实现以往难以实现的将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。本次分享主要分为下面三个部分：

1. Agent 的整体介绍

2. Agent 的技术架构拆解

3. 我们在 Agent 上一些尝试

4. 总结

听众收益：

1. 了解目前 Agent 的一些主流进展

2. 了解目前 Agent 的技术细节

3. 具体如何实践

关凯

网易伏羲资深人工智能工程师

个人介绍：硕士，毕业于浙江大学计算机系。于18年3月加入网易伏羲，自21年中起负责强化学习落地方向。其专注于优化Game AI Bot的表现及策略，提升玩家游戏体验。目前成果已在多款网易雷火的游戏落地应用，如：永劫无间、逆水寒（端游、手游）、全明星街球派对，倩女幽魂（端游、手游）等。

演讲题目：Game AI Bot 在PVP场景中的应用与实践

演讲提纲：

1. PVP类游戏Game AI Bot的应用场景及案例引入

2. 如何生产满足需求Game AI Bot

3. 如何应用Game AI Bot 及其结果

4. 工作展望

听众收益：

1. 了解PVP类游戏对Game AI Bot的需求及其痛点

2. 了解现阶段的Game AI Bot的生产流程

3. 了解Game AI Bot如何联合游戏匹配系统进行应用

何洋

货拉拉大数据专家

个人介绍：何洋，本科毕业于中南大学，先后就职于唯品会、饿了么、拼多多，负责过万级规模大数据集群，目前就职于货拉拉，主要从事大数据安全、计算资源调度、大数据平台和 GPT 应用相关工作。

演讲题目：货拉拉大数据下一代基础架构实践与思考

演讲提纲：

1. 背景与挑战

2. 基础架构实践

3. 总结与思考

4. 未来展望

听众收益：

1. 面对资源波峰低谷，如何在成本和资源效率间平衡

2. 除了 x86 服务器，我们还有别的选择么

3. 面向云原生浪潮，大数据架构如何演进

贾承昆

知乎数据平台负责人

个人介绍：贾承昆。曾就职于阿里云、猿辅导、知乎等公司。有多年数据架构方向的工作经验。负责知乎大数据的基础架构和数据平台相关的工作。

演讲题目：知乎大数据跨机房实践

演讲提纲：介绍知乎大数据跨机房方案，如何在多个机房之间迁移数据，调度计算作业并保障稳定性。

听众收益：

1. 如何设计并实现 Hadoop 跨机房方案

2. 如何在多集群之间进行快速的数据迁移

3. 如何在多集群架构下保障稳定性

金志鹏

百度资深研发工程师

个人介绍：硕士毕业于中科院自动化研究所，2016年加入百度商业广告团队，先后从事凤巢点击率模型优化、商业多模内容理解等工作，目前在商业技术中台团队担任内容中台资深算法工程师，负责多模态理解与生成方向，相关工作多次发表于 SIGIR，CIKM，BigData 等国际会议。

演讲题目：多模内容理解在百度商业广告中的探索实践

演讲提纲：

1. 商业图文预训练大模型

2. 多模内容表征如何赋能商业系统，包括排序系统、召回系统

3. 多模内容理解与生成大一统

听众收益：

1. 如何训练一个百亿的图文大模型？

2. 多模态内容如何赋能商业系统？

3. 排序模型的 ID 记忆性问题如何解决？

苏喻

合肥综合性国家科学中心人工智能研究院副研究员

个人介绍：苏喻，工学博士，硕士生导师，合肥综合性国家科学中心人工智能研究院副研究员，合肥师范学院计算机学院副教授，专业负责人，中国计算机学会大数据专家委员会通讯委员，安徽省计算机学会青少年信息学教育专委会秘书长，研究方向为自然语言理解，数据挖掘与推荐系统。2011年7月-2022年2月就职于科大讯飞研究院，历任科大讯飞AI教育研究院副院长，AI研究院认知群教育条线负责人，学习机业务线业务总监，重点负责教育领域个性化学习业务，其研发的多项成果已经成功的应用到讯飞智学网、讯飞学习机等相关产品中，于2018年获得讯飞首届华夏创新奖，获2020年吴文俊人工智能科学技术奖科技进步一等奖。同时，先后参与多项安徽省、部级等层面的重大项目科研工作，如国家自然科学基金重点项目“基于多模态数据的学习者认知诊断理论与关键技术研究”、科技部重大专项“面向分类用户个性化需求的科技大数据精准服务技术”等。其间获得多项发明专利，并在AAAI、KDD、IJCAI等国际知名学术会议与期刊发表文章近50余篇。

演讲题目：教育领域大模型的技术和应用

演讲提纲：随着技术的不断演进，大语言模型，如GPT-4，及其相关技术已经深深影响了许多行业。尤其在教育领域，这些模型已经促进了许多前沿的应用与实践的出现。通过将大语言模型融入智慧教育，我们希望其能够解决传统方法所面临的问题。本次演讲将重点探讨如何利用大语言模型来应对智能教育所遭遇的技术问题，并分享我们团队的最新研究进展。此外，演讲的最后还将介绍我们在教育场景下结合上述技术所取得的应用成果。

1.简述大语言模型在通用教育下有哪些应用场景

2.阐述目前智慧教育在技术上所面临的问题 (有标签数据少、闭环周期长、需要融入领域知识)

3.介绍团队在教育领域大模型相关的技术

4.1基于大语言模型的知识构建

(1)人机合的知识图谱构建技术:通过与大语言模型的结合，实现人机协作的方式，可以更高效、准确地构建领域内的知识图谱；

(2)大模型的小知识学习技术:允许大模型专门针对某一领域或主题进行微学习，从而生成更加准确的领域相关内容；

4.2基于大语言模型的仿真强化试题推荐技术

(1)基于大语言模型的学生学习行为仿真技术:通过大模型分析学生的学习行为，模拟其学习路径和趋势，从而预测学生在进行某个学习和做题后的知识水平情况；

(2)基于大语言模型的强化试题推荐技术:结合强化学习和大语言模型仿真，系统可以根据学生的学习历程和反馈，动态推荐适合其学习水平和需求的试题，帮助学生更加高效地学习和巩固知识；

5.教育领域大模型相关的应用

(1)数字人AI录播课

(2) AI智慧编译器

听众收益：听众将从本次演讲中获得对大语言模型在教音领域的深入了解，探索其如何解决智慧教育的技术挑战，以及实际应用中的具体案例，为教育者和技术从业者提供有价值的启示和激发创新思维的灵感。

刘焕勇

360 人工智能研究院算法专家、知识图谱方向负责人、360智脑项目组核心成员

个人介绍：360人工智能研究院算法专家、知识图谱方向负责人、360智脑项目组核心成员，“老刘说NLP”公众号作者，曾就职于中国科学院软件研究所。主要研究方向为大模型数据挖掘与自动化评估、领域知识/事件图谱的构建与落地应用，主持或参与研制全行业事理图谱、百科图谱、知识图谱平台、事件情报分析、右侧推荐、大模型研发等落地项目，申请发明专利十余项、论文数篇。近年来在OGB-Wikikg2、CCKS多模态实体对齐、可解释类案匹配等评测中获得多项冠亚军。致力于自然语言处理技术开源共享，在github开源项目60+，收获star数超2W+。

演讲题目：大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索

演讲提纲：幻觉问题是制约大模型在某容错性较低场景的拦路虎。而幻觉问题本身来源于多个方面，包括数据、训练方式以及解码策略等。本报告将围绕大模型幻觉的起因、如何评估、在真实落地场景下如何结合外部知识图谱进行缓解等几个方面进行介绍。

听众收益：

1. 什么是大模型幻觉，幻觉是好是坏？

2. 为什么会出现幻觉，又如何评价幻觉？

3. 幻觉在落地场景中如何用知识图谱加以缓解？外挂 or 受控生成 or 其他？

胡金波

重庆医科大学附属第一医院内分泌科副研究员，主治医师

个人介绍：胡金波，医学博士，主治医师、副研究员、博士生导师，获得重庆市杰出青年基金、重庆市高校巴渝学者。擅长内分泌性高血压、糖尿病、甲亢等内分泌疾病的诊治，主要研究领域为肾上腺疾病。曾留学美国哈佛大学。担任美国内分泌协会（ENDO）会员、重庆医师协会内分泌代谢科医师分会委员。主持国家级课题2项、省部级课题4项，获得省部级科研奖励2项。执笔撰写《中国肾上腺意外瘤多学科管理专家共识》，参编第2版人民卫生出版社《“5+3”医学整合课程教材》。在《Ann Intern Med》、《J Am Coll Cardiol》、《Metabolism》等杂志发表论文35篇（中科院1区论文12篇）。

演讲题目：因果推断与医学研究

演讲提纲：随机实验和因果分析在医药领域有悠久的历史，并得到广泛的认可。本次分享将结合一个高血压诊疗的应用案例，从以下两方面介绍：

1）医药临床实验里的实验设计

2）医药学界对因果推断和实验设计的要求、解读和共识

听众收益：

1、如何从诊疗场景出发挑选合适的设计和推断方法

2、了解因果推断和实验设计在垂直领域的应用

3、医药学作为比互联网更早、更严谨使用随机实验和因果推断的垂直领域，给互联网公司带来的思考和启发

王世伟

货拉拉增长数据科学负责人

个人介绍：2014年天津大学硕士毕业后加入腾讯，7年腾讯手游风控经验，先后主导过QQ飞车（休闲类）、英雄联盟（moba类）和和平精英（fps类）等20款+手游的安全对抗工作；2021年加入货拉拉，负责增长数据科学的日常管理，主要负责货运AB实验，GPT大模型、画像标签等技术能力建设的工作。

演讲题目：货运双边市场实验的挑战和实践

演讲提纲：

1. 初识货运双边市场

2. 货运场景实验问题

3. 货运实验技术方案

4. 货运场景实验案例

听众收益：

1. 同城货运如何交易的

2. 如何缓解运力竞争带来的实验干扰

3. 降本增效下如何衡量补贴策略效果

杨昆

知乎实验平台技术负责人

个人介绍：知乎实验平台技术负责人，多年微服务，云平台和大数据相关经验，亲历负责了知乎多代实验平台的产品迭代过程。

演讲题目：知乎实验平台工程实践

演讲提纲：介绍知乎实验平台的架构体系演进，如何从 0 到 1 搭建实验平台，从不科学到科学置信的发展过程。

1. 知乎实验平台的发展历程

2. 踩过的坑和经验沉淀

3. 科学实验平台的架构设计

4. 未来展望

听众收益：

1. 实验平台分流模型的架构和设计

2. 实验分析链路的构建

3. 在实验的过程中哪些坑可以避免少走一些弯路

韩士超

腾讯微信实验平台数据科学家

个人介绍：本硕毕业于加州大学伯克利分校统计系和计算机系，现在腾讯微信实验平台负责实验设计和因果推断研究，专注于双边市场的问题和其他各类方法的应用与落地。

演讲题目：如何保证实验外部有效性（External Validity）

演讲提纲：随着AB实验日益增加的重要性，我们越来越关注策略在小流量实验期间观测到的因果统计量能否在推全后保持一致。本次演讲将会从如下方面介绍微信实验平台在外部一致性问题上的探索和应用：

1. 问题背景-可能会造成实验期间观测到的效果和推全后不一致的原因

2. 实验设计侧的解决方法

3. 实验分析侧的解决方法

听众收益：

1. 了解导致实验期间观测到的效果和推全后不一致的方法框架

2. 了解双边市场实验设计和有溢出和抢夺效应时的实验设计及分析方法

3 . 了解其他消除内外部不一致的方法及应用场景

詹若涵

香港科技大学助理教授

个人介绍：詹若涵是香港科技大学工业工程与决策分析系助理教授。她的研究开发了使用因果推理、统计和机器学习等工具来创新数据驱动决策的方法，尤其对平台运营和经济学问题感兴趣。此前，她获得了北京大学数学学士学位、斯坦福大学统计学硕士学位和计算与应用数学博士学位。

演讲题目：A/B测试中的实时监测策略与加速方法

演讲提纲：

1. 在A/B实验中进行实时监控时，为什么传统的固定样本量测试方法不能有效控制第一类错误（Type-I error）？

2. 我们推出了一种新的置信区间构建方法，适合于有重复观测的用户。此方法可以有效地在实时监控中控制第一类错误（Type-I error）。

3. 如何确保实时监控实验的效能（power）？

4. 如何基于实时观测来加速实验进程？

听众收益：

1. 如何在实时监测A/B实验中有效控制第一类错误？

2. 如何提高A/B实验的统计效能？

3. 如何利用实时监测来加速A/B实验进程？

陈宸

OPPO 研究院高级算法工程师

个人介绍：陈宸，本科毕业于上海交通大学，博士毕业于香港科技大学。主要研究方向包括视频编解码、图像处理、持续学习/鲁邦学习等机器学习基础问题、计算机视觉在细粒度识别上的应用、多模态预训练在AIGC方向的应用等。曾任腾讯高级研究员，负责腾讯全媒体内容安全识别体系的搭建。现任OPPO研究院高级算法工程师，负责多模态预训练在跨模态检索、理解和生成的端云场景应用研究。在大模型预训练、端侧轻量化以及下游应用都有长期业务实践经验。

演讲题目：多模态预训练模型在OPPO端云场景的落地实践

演讲提纲：主要围绕图文多模态预训练模型在检索、理解、生成等各个方向的云端两侧的技术优化和落地场景介绍。如何在低资源的情况下用最少的算力优化多模态大模型已经成功落地到移动终端。

1. 图文检索云端两侧优化思路

2. 文图生成大模型继续预训练优化思路

3. 文图生成下游垂域优化思路（个性化生成、垂域微调、文字渲染等）

4. 文图生成大模型端侧轻量化落地介绍

听众收益：

1. 了解大模型在低资源下持续优化的算法实践经验；

2. 了解大模型在移动终端的轻量化落地优化链路；

3. 了解图文预训练模型在理解和生成方向的业务落地场景和实践经验。

付凡

vivo 人工智能部门算法总监

个人介绍：毕业于中国地质大学（武汉）信息技术相关专业，超10年算法经验。2017年加入vivo，从事NLP算法相关工作，期间参与Jovi语音助手、电话秘书、手语翻译官等算法研发，从0到1搭建千万日活产品。目前在vivo从事大模型算法开发及产品落地相关工作。

演讲题目：大模型从训练到产品落地分享

演讲提纲：

1. 大模型演进 & 技术架构；

2. vivo 在大模型训练分享；

3. vivo 在大模型产品落地技术；

4. vivo 大模型成果展示；

听众收益：

1. 预训练数据如果构建及预处理方案？

2. SFT 如何提高模型效果？

3. 大模型如何适配到产品应用？

熊瑾

bilibili 数据产品经理

个人介绍：曾负责网易数帆的数据开发平台、阿里数据中台的用增/私域/集团标签等数据项目。目前在bilibili负责数据产品。

演讲题目：电商与内容型业务用增数据的基建异同

演讲提纲：在不同的业务类型、组织形态、发展阶段等要素下，用增数据如何建设好。

听众收益：用增数据建设在诸多不同要素下的数据实践差异：
1. 业务类型：电商业务v.s.内容社区业务
2. 组织形态：自上而下型v.s.自下而上型
3. 发展阶段：成熟期v.s.生长期

韩钰

腾讯 PCG 数据上报系统负责人

个人介绍：硕士毕业于中国科学院计算机网络信息中心，曾先后就职于百度、滴滴、腾讯等公司，目前在腾讯数据中台负责数据上报系统，深耕数据上报质量和效率，实现PCG的全业务覆盖。

演讲题目：数据采集治理

演讲提纲：

1、引子

1）数据采集的深广准决定了指标应用的能力上限，指标治理需要从采集源头开始

2）数据采集其实就做一件事：将真实的客观世界数字化并记录下来

3）做好数据采集的终极目标是质量和效率

2、质量

1）数据质量问题60%～80%发生在采集阶段，在指标应用阶段才发现质量问题会让人气馁，排查也很低效

2）新一代数据质量审查工具，让人们对数据质量的认知从合规检查提升到合理分析

3）质量审查能让人一眼看穿数据质量，让指标使用方可以放心大胆的使用采集数据

4）智能判定则可让机器自动发现问题，基于灰度主流对比、主流日期环比等一系列相关性对比思路

5）行为诊断可用来帮助诊断一些数据采集的疑难杂症，通过可视化单个用户的全部行为轨迹

6）补充其他质量工具，总结实践经验

3、效率

1）效率瓶颈很多时候并不在开发上，而在对需求的梳理、沟通、反复修改、录入、验收，以及后续长久的维护上

2）定义终端数据采集模型，在事件的基础上增加页面和元素，标准化采集口径，约定大于灵活

3）实现在线文档与需求面板的同步，既利用了在线文档的便捷，又能在需求面板中完成Diff对比、测试验收等操作

4）利用采集SDK帮助提升开发效率，用一套API 引导开发者按采集模型来埋点，可选的用自动和半自动采集来减轻开发负担，搭配一套高效的测试诊断工具

5）建立退出机制，基于ROI（血缘热度/成本）的生命周期管理

4、展望

1）质量和效率我们在路上

听众收益：

1、了解新一代数据质量审查工具，让人快速看清数据质量，让机器自动发现问题

2、了解如何才能把数据采集的效率做好

傅正佳

Alluxio 首席架构师

本科毕业于上海交通大学电子系，随后取得香港中文大学信息工程博士学位，毕业后加入新加坡高级数字科学中心（美国伊利诺伊大学在新加坡的研究所）从事科研工作，在计算机网络和分布式系统领域相关的顶级国际会议发表多篇论文。加入Alluxio前，傅正佳曾在新加坡科技公司Bigo Technology担任机器学习研发总监。

马吉辉

永辉超市大数据架构师

个人介绍：马吉辉，永辉超市大数据架构师，数据中台OLAP架构负责人，永辉CLICKHOUSE布道者，毕业于南京大学计算机系，2019年加入永辉云创数据智能产品研发部，从0到1构建永辉线上大数据计算体系，离线、准实时、实时数仓架构，2020年主导并参与了永辉数智化转型之路，构建永辉数据中台，数据中心"蓄水池"，高效赋能业务增长。多年大数据从业经验，对数据基础架构服务、数据资产化、数据应用具有深刻的洞见。目前专注于数据治理，自助取数分析-人人都是数据分析师的体系建设落地。基于永辉"极光"平台实现业务输出。

演讲题目：零售行业永辉超市云原生数据中台的探索与实践

演讲提纲：

1. 永辉数据中台的经路历程

2. 以数据赋能零售业务的探索与实践

3. 数据治理思维驱动数据中台稳定高效

4. 未来展望

听众收益：

1. 了解零售业数据中台私有云建设的探索与实践

2. 了解数据治理在数据中台中的思维体现

3. 了解数据如何赋能复杂的零售业务变化

4. 对零售业技术的未来的探索与实践

张启华

虎牙直播推荐算法工程师

个人介绍：目前就职于虎牙，之前先后在百度和腾讯工作，一直从事推荐算法领域，尤其对重排/混排算法有较深的理解与创新。在业界首次提出把强化学习应用于多目标融合领域的方案，随后在腾讯多个产品有效果显著的落地应用，后续也有多家公司跟进应用，该成果整理成论文发表在数据挖掘领域国际顶级学术会议KDD2022上，引起较大反响，在这一领域开创了一个全新范式，大幅提升了效果天花板。

演讲题目：强化学习在推荐系统中的实践探索与业界进展

演讲提纲：

1. 推荐系统与强化学习

a. 强化学习概述，及其应用领域

b. 推荐系统的传统方法及当前挑战

c. 强化学习与推荐系统的结合点：交互性与长期满意度

（讲述结合的动机，推荐系统通过不断增加预测任务并拓展目标周期，以提升对用户的长期满意度，而强化学习的交互性及长期价值建模有助于推荐系统实现该目标）

2. 探索强化学习在推荐系统中的应用

a. 推荐问题的强化学习建模

b. 面临的核心挑战

i. 推荐系统的动态性与复杂性

ii. 延迟奖励与复杂的环境反馈

c. 常见的强化学习实践方案，优势及局限性

d. 离线强化学习的实践探索

i.OfflineRL的训练框架

ii.不同范式的OfflineRL模型算法

iii.离线评估方法

（以踩坑过程为线索，介绍建模方法，在探索过程中遇到的一些问题，分布偏移、外推误差，模型训练困难，线上效果不稳定等等。介绍一种成功案例的OfflineRL的流程框架）

3. 业界的新进展与进展

a. 近期研究成果，论文分享或成功案例

b. 新的算法与技术概述

c. 未来展望，一些可以尝试的方向畅想

听众收益：在此次演讲中，我们将尝试探索强化学习与推荐系统的结合点，并分享一些实践中的踩坑经验。听众可能会对这两者的结合有更多的了解，认识到实践中可能的挑战和考虑点。通过一些业界的研究进展，我们希望提供一些思考的方向，但这只是一个起点。期待与大家共同探讨，相互学习，一同前行。

冯赞锋

快手大数据架构师

个人介绍：先后就职于百度、创新工厂-豌豆荚、快手三家公司，主要擅长大数据中台构建、数据治理，在搜索、爬虫、后端服务开发等方向也有一定积累，目前在快手主要负责数据治理架构设计和开发工作。

演讲题目：快手数据成本白盒化治理实践

演讲提纲：

1.1 背景介绍

· 数据治理介绍：快手数据治理整体介绍

· 本次分享核心：通过引擎与数仓白盒化拆解，提升治理深度，实现降本增效

1.2 收益评估方法

· 压缩率

· 存储数据量

· 资源消耗（CPU核*天）

· 作业运行时长

· 作业失败率

1.3 引擎白盒化

· HBO

· JVM升级

· 压缩算法替换

· 计算过程拆解

1.4 数仓白盒化

· 基于 Similar SubExpression 的公共模型构建和优化

· 数仓自动化治理实践

1.5 个人思考

· 严谨：事前收益测算 -> 事中灰逐步度验证，解决异常CASE -> 事后整体效果评估

· 深入：对引擎、工具、数仓均有深入理解

· 行动：躬身入局，模糊各个团队的边界

1.6 未来规划

· 压缩效率持续提升

· 实时计算Flink白盒化

· 数仓架构优化

听众收益：
1、深入到大数据存储计算引擎和数据仓库，对其进行白盒化拆解，在治理思路、治理经验等方面有不少可借鉴之处

2、讲述快手实践，如何成功降低千万级存储和计算成本

董沅

阿里巴巴瓴羊数字营销产品经理

个人介绍：主攻大数据AI方向，深耕行业应用产品多年，现负责阿里巴巴线下营销产品设计研发。

演讲题目：线下营销的数智化应用分享

演讲提纲：
1、线下营销盲点分析
2、利用数智能力实现线下营销人群的精准定位、精准触达、效果评估、资产二次运营的实践方法论分享
3、案例分享

听众收益：
1、如何实现线下精准营销？
2、如何评估户外品牌广告的效果？
3、如何沉淀户外营销的资产？

曾昭正

顺丰科技大数据高级研发工程师

个人介绍：10年以上大数据底盘研发经验，2017年加入顺丰科技，负责dataPaaS相关工作，主要涉及大数据混合云弹性扩缩容、云原生实时数湖等业界创新型技术在顺丰的探索和落地。

演讲题目：混合云原生大数据底盘

演讲提纲：

1、背景与趋势

2、顺丰混合云原生数据架构升级

3、顺丰大数据架构应用案例

听众收益：

1. 多云融合的大数据基础设施如何做到低成本

2. Hadoop 与云原生架构如何做融合

3. 跨机房离线任务如何保障计算效率

林天权

蚂蚁集团高级数据技术专家

个人介绍：林天权（花名：画龙），现任蚂蚁集团高级数据技术专家，有10多年大数据研发、架构升级和数据治理经验，14年开始加入蚂蚁，深度参与蚂蚁大数据的发展和升级演进，曾作为实时数据负责人主导蚂蚁双十一媒体实时大屏、蚂蚁全域实时采集链路和蚂蚁实时数据研发平台研发，以及PB级adhoc查询加速服务和大安全一键数据服务化平台研发与升级，现任蚂蚁安全大数据技术团队数据架构及治理负责人，推进技术创新，打造EB级AutoFinOps核心能力，升级蚂蚁新一代数据架构，用数据创造价值。

演讲题目：蚂蚁新一代数字智能化治理平台 AutoFinOps 实践与探索

演讲提纲：科技驱动一直是蚂蚁的核心发展理念，也是蚂蚁安身立命之本。蚂蚁过去的发展，源于能够始终抓住技术变革机遇，用技术创造价值。蚂蚁集团在面对EB级数据规模、错综复杂的业务以及数字时代新型安全风险挑战，数据治理除了传统的运动式治理、元数据驱动治理、一站式治理平台、自上而下的治理规范制度约束等解决方案外，也在不断尝试技术创新和架构升级等手段破局和提效，提供更加高效、便捷、丝滑的自动化、智能化解决方案，本次分享带你深入了解蚂蚁如何通过治理数字智能化快速实现“无感降本”，特别是智能归因、AutoFinOps、错峰计算等技术应用和实践，期待你的聆听，也期待与你一起交流。具体内容包括：

1. 数据治理的困难与挑战

2. 数据治理的顶层设计和架构

3. 数据治理自动化和智能化的最佳实践

4. 思考总结与未来展望

听众收益：
1. 了解蚂蚁数据治理的设计思路

2. 深度解读蚂蚁“无感降本”技术如何高效实现

3. 探讨数据治理领域未来趋势

肖玄基

Shopee 内容电商算法负责人

个人介绍：毕业于中科院软件所，目前在Shopee负责电商直播为主的内容电商算法，曾在腾讯，阿里，百分点工作过。主要研发方向包括推荐，内容生态，用户增长，营销等。

演讲题目：面向2026年的推荐算法前瞻

演讲提纲：

• 常规的推荐系统范式已经逐渐走入瓶颈，原因是在当前固定化的问题描述下模型和系统几乎已经发展到极限。当前的主要范式是模型是召回+排序+重排，系统上是样本挖掘+特征工程+线上打分预估能力建设。一线大厂在上述领域已经把空间几乎挖掘殆尽。

• 同时可以看到，我们的用户仍然对当前推荐系统满意度并没有达到理想态。推荐系统是一个非常面向于用户满意的平台系统，而用户满意是一个永远有不同理解的问题,正如“一千个用户眼里有一千种好的推荐系统理解”。同时，我们的推荐系统效果和平台的最终价值之间仍然存在差距。

• 构建更好的推荐系统需要我们对重新定义“什么是好的推荐系统”。

• 这并不是学术界的“强行挖坑”或者“继续填坑”，而是不同层面上都在呼唤新的定义。

• 事实上，新的推荐系统已经零散的在学术界和工业界展现星星之火。

听众收益：

1）了解未来3年的推荐系统前沿问题，把握大局方向。

2）参与我们的推荐算法的github开源项目： OneRec。

左银康

国信证券数据治理负责人

个人介绍：本科毕业于华中科技大学，先后在大型股份制商业银行、四大央企和国信证券从事数据治理工作。在商业银行总行开展数据治理，推动全行的数据标准制定、客户数据质量检核、元数据的管理和平台工具建设，在四大央企之一开展集团主数据建设，进行集团组织、员工、物料主数据的规划、实施和推广，目前在国信证券开展数据治理工作，负责公司数据治理组织、制度、流程、工具的规划、设计和实施落地。

演讲题目：基于需求驱动的数据治理场景化实践

演讲提纲：在大数据时代，数据治理已经成为了企业数字化转型的必经之路。然而传统的数据治理和数据资产管理工作往往偏向中后台，如何将数据资产管理与业务、开发结合，将数据治理由管控走向服务，更好地体现数据资产的成果和价值，是目前行业数据治理共同面临的痛点和挑战。为此，本次分享从需求管理的思路出发，面向监管报送、资产管理、经营分析等实际的业务场景以及模型开发、测试和生产环境一致性保障等开发场景，剖析痛点和需求，设计方案，实现数据治理的场景化落地。

听众收益：

1. 数据治理缺乏业务配合，如何驱动业务和开发的积极性？

2. 数据治理流于形式，如何嵌入日常的研发节点？

3. 数据治理涉及领域众多，如何融合打通？

许璐

平安产险数据智能大数据工程师

个人介绍：15年加入平安，目前负责平安产险大数据基础平台研发管理优化等工作。

演讲题目：数字化转型下的大数据平台治理

周国峰

NVIDIA DevTech 研发经理

个人介绍：2014 年毕业于中国科学院。毕业后加入 NVIDIA 至今，任 DevTech 团队研发经理。主要负责中国区大客户技术项目合作和技术研发。

演讲题目：TensorRT LLM 介绍

演讲提纲：TensorRT LLM 是 NVIDIA 加速 LLM 推理的开源解决方案。TensorRT LLM 提供了 python 接口，灵活的模块化组件，丰富的预定义主流模型，极大地方便了开发者在 NVIDIA平台上部署基于 LLM 的服务；同时，NVIDIA 投入了大量工程师对 TensorRT LLM 做了极致优化，包括主流的量化算法（smoothQuant, GPTQ, and AWQ）, in-flight batching, Tensor 和 pipeline 并行等推理加速优化方法。TensorRT LLM 除了具备业界领先的推理性能，同时也在不断提高它的易用性。

1 什么是 TensorRT LLM?

2 TensorRT LLM 主要特点

3 如何使用 TensorRT LLM

4 TensorRT LLM 性能

5 TensorRT LLM 展望

听众收益：

1 理解 TensorRT LLM 产品定位

2 熟悉 TensorRT LLM 主要功能和使用方法

3 了解 TensorRT LLM 主要优化手段

明希

BentoML 高级软件工程师

个人介绍：BentoML 全栈工程师，Python 玩家，开源爱好者。负责 BentoML 项目的开发。著名 Python 包管理器 PDM 作者。

演讲题目：使用 OpenLLM 构建和部署大模型应用

演讲提纲：

一、大模型应用部署的挑战

二、使用OpenLLM 快速启动一个大模型的应用

a. 通过 OpenLLM 调用大语言模型

b. 通过OpenLLM启动一个HTTP server

c. 使用命令行进行模型推理

d. 使用Python Client与应用交互

e. OpenLLM 与 langchain的集成

f. 模型推理性能的优化

三、使用 BentoML 工具构建并部署大模型应用

a. BentoML 简介

b. 构建一个bento

c. 将Bento部署到bentocloud

听众收益：

1. 如何使用常见的LLM快速启动一个应用

2. LLM应用性能优化的方法

3. BentoML 框架的安装与使用方法

俞一鹏

淘天集团高级算法专家

个人介绍：俞一鹏，浙江大学计算机专业博士毕业，博士期间在新加坡国立大学进行联合培养。曾在IBM中国研究院担任研究科学家，在腾讯担任高级研究员。工作期间主要研究方向为自然语言处理和多模态，涉及内容创作、内容理解和内容推荐，也负责过“游戏内的自然语言交互”的AI项目。在IJCAI、ACM MM和Ubicomp等国际A类顶会上发表过多篇一作论文，有十几项已授权的中国和美国专利。

演讲题目：生成式AI在淘宝内容的研究与应用

演讲提纲：演讲主要介绍AIGC技术在淘宝内容化业务中的算法研发和业务应用。具体包括：

1.UGC互动创新玩法

2.视频剪辑&生成技术

3.多模态大语言模型的落地挑战

听众收益：

1.AIGC技术在UGC互动的创新玩法尝试

2.视频剪辑&生成技术如何赋能商家和用户

3.多模态大语言模型的快速迭代和效果评估

焦文健

京东大数据产品总监

个人介绍：京东大数据产品总监，中国人民大学MBA，十年以上大数据从业经验，具有数据中台化、数据业务化、数据智能化的落地实践经验。

演讲题目：京东物流一站式敏捷BI产品规划与落地实践

演讲提纲：

- 京东物流业务数据应用现状及挑战。

- 一站式敏捷BI产品的规划与迭代升级路径。

- 业务应用实践案例。

听众收益：

- 理解敏捷BI产品规划和设计要点

- 学习如何提升BI类数据产品的性能和用户体验

- 学习BI产品助力业务自助式实现数据分析的实践路径

严明博士

阿里巴巴通义实验室文档智能技术负责人

通义实验室文档智能技术负责人和 GUI 智能体 Mobile-Agent 负责人，主要研究方向多模态智能体、长文本理解和推理、文档智能解析和多模态文档创作等，负责打造文档智能模型产品 QwenLong、Qwen-Doc，以及文档智能解析产品 Document Mind，相关能力应用于千问APP、通义智文以及内外部多个产品线，并主导 Mobile-Agent 开源技术体系影响力建设（8k+ Stars）和创新产品孵化，在 ACL、ICML、ICLR、NeuIPS、CVPR 等国际会议期刊发表100多篇相关学术论文。

蒋晓峰

哔哩哔哩基础架构部资深开发工程师

个人介绍：哔哩哔哩资深开发工程师，Apache Paimon PPMC，Apache Kyuubi & RocketMQ Committer，主要负责哔哩哔哩 Remote Shuffle Service。

演讲题目：Apache Paimon：实时数据湖 Streaming Lakehouse 的存储特性解读

演讲提纲：

1. 实时数据湖痛点剖析

2. Apache Paimon 架构概览

3. Apache Paimon 特性解读

4. Apache Paimon 入湖实践

5. Apache Paimon 规划展望

听众收益：了解实时数据湖 Streaming Lakehouse 的存储底座概况，熟悉 Apache Paimon 实时数据湖的架构原理和实践案例。

谢凝

华为技术专家

个人介绍：华为翻译中心技术专家，华为机器翻译产品和数据负责人，中国翻译协会翻译技术委员会副主任委员。于2006年加入华为，有丰富的机器翻译产品开发和数据构建经验。

演讲题目：机器翻译数据增强实践

演讲提纲：介绍华为翻译中心在机器翻译任务上的数据处理、数据增强实践。

听众收益：

1. 如何提升机器翻译训练数据的质量。

2. 哪些是更有效的机器翻译数据增强策略。

吴章淋

华为 NLP算法研究工程师

个人介绍：南京邮电大学硕士研究生毕业，目前就职于华为，从事nlp算法研究工作，研究方向主要包括大模型、机器翻译、语音翻译和知识图谱等领域，相关研究成果发表于ACL，EMNLP和IJCKG等会议，发表论文共计10余篇，也参加过近两年的WMT、CCMT、IWSLT、NLPCC、CCKS比赛，并拿下了多个赛道的第一。

演讲题目：盘古大模型微调实践

演讲提纲：

1. 什么是大模型

2. 大模型发展历程

3. 大模型微调目的

4. 大模型微调技术

5. 大模型微调加速方法

6. 大模型微调效果提升手段

听众收益：

1. 如何进行大模型微调？

2. 如何加速大模型微调？

3. 如何提升大模型微调效果？

黄帅

蔚来汽车 GPT应用技术负责人

个人介绍：中科大硕士，曾服务于百度腾讯等互联网大厂，在大数据人工智能领域有十多年经验。

姚亮

腾讯高级研究员

个人介绍：姚亮，现任腾讯高级研究员，博士毕业于浙江大学，曾在美国西北大学任博士后研究员。以第一作者在AAAI、SIGIR、TKDE等顶级会议及期刊发表论文多篇，谷歌学术H指数21，入选全球前2%顶尖科学家、AI 2000人工智能全球最具影响力学者。现在腾讯游戏从事图学习、大语言模型相关的研究和落地。

演讲题目：腾讯游戏的图学习研究与落地

演讲提纲：

1. 大规模图学习算法 PB-GNN

2. 链路预测算法的研究与应用落地

3. 大语言模型在知识图谱补全的应用

听众收益：熟悉大规模图学习算法，链路预测算法，图预训练算法、大语言模型和知识图谱的结合。

黄泓

Akulaku 资深算法开发工程师

个人介绍：毕业于代尔夫特理工大学，专注于图计算与知识图谱在Akulaku各种智能应用的落地。

Alexry Milovdov

ClickHouse CTO

个人介绍：Alexey 毕业于莫斯科国立大学，拥有数学学位。他的兴趣领域包括数据处理算法和技术，他热爱数据和高性能。拥有13年的设计、开发和操作数据密集型应用程序的经验。他于2009年开始着手ClickHouse初始模型的策划和开发，并于2016年将其释放为开源项目。在ClickHouse之前，他开发了全球第二大网络分析系统的数据处理引擎。

演讲题目：ClickHouse 2024 新功能与研发方向思考

演讲提纲：ClickHouse是业内公认最快的OLAP数据引擎，同时clickHouse也在面对来自包括中国区在内的全球的优秀产品的竞争，这也激励了我们更加努力地发展社区，完善我们的产品。我们非常愿意分享我们产品的新功能新特性以及未来的roadmap，我们也希望听到来自中国社区和用户的期望。

谢志豪

ClickHouse 技术支持工程师

个人介绍：Derek 谢志豪是 ClickHouse 的技术支持工程师。主要工作范围包括帮助大型客户解决重大技术问题，优化 Clickhouse 集群，提升使用体验。Derek 毕业于新加坡国立大学 (NUS) 获得信息系统学位，在 ClickHouse 工作之前一直从事数据平台的优化和管理工作。

演讲题目：ClickHouse 2024 新功能与研发方向思考

演讲提纲：ClickHouse是业内公认最快的OLAP数据引擎，同时clickHouse也在面对来自包括中国区在内的全球的优秀产品的竞争，这也激励了我们更加努力地发展社区，完善我们的产品。我们非常愿意分享我们产品的新功能新特性以及未来的roadmap，我们也希望听到来自中国社区和用户的期望。

任强

火山引擎 ByteHouse 技术专家

个人介绍：任强，2020年7月加入火山引擎 ByteHouse 团队，一直从事实时导入相关研发工作，目前负责实时导入模块。

演讲题目：火山引擎 ByteHouse 的云原生探索与实践

演讲提纲：近年来，随着云基础设施的成熟和数仓技术的发展，云原生数仓凭借按量付费、按需弹性的特点越来越受到客户的青睐。字节跳动在云数仓领域有十多年技术经验积累，并基于开源 ClickHouse 推出的云原生数据仓库 ByteHouse。本次分享将从云数仓历史和前沿出发，介绍 ByteHouse 云数仓的整体架构和亮点，以及存算分离的关键设计与实践。主要包括以下内容：

1. 数仓架构演进历史

2. 云数仓演进中的技术难点和问题

3. ByteHouse 云数仓架构设计以及存算分离的关键技术

4. ByteHouse 存算分离的实践与优化

听众收益：

1. 了解云原生数仓的发展与核心价值

2. ByteHouse 云数仓的架构设计与技术亮点

3. 云原生数仓的挑战和展望

孙嘉琨

腾讯音乐推荐算法工程师

个人介绍：硕士毕业于荷兰莱顿大学计算机专业，毕业后加入腾讯音乐至今，负责QQ音乐、IOT等多端多业务推荐算法优化。

演讲题目：QQ音乐推荐排序算法实践

演讲提纲：

1. QQ音乐推荐整体架构

2. 精排算法设计

3. 跨域推荐相关算法详解及探索

4. 总结与展望

听众收益：了解QQ音乐推荐概况，熟悉多目标及多场景推荐的相关算法及应用实践。

陈峰

滴普科技 Senior Research Fellow

个人介绍：滴普科技高级研究员，《ClickHouse性能之巅》作者。数据智能领域资深架构师，曾主导OPPO智能缺陷识别、威视智能瞳孔检测、百丽丽影等多个数据智能项目技术架构的设计工作，有丰富的大模型落地经验。目前着眼于大模型在不同领域上的工程化落地。

演讲题目：领域模型生产指南

演讲提纲：

1. 领域模型的难点

a. 领域模型和通用大模型的异同点

b. 领域模型的三大难点及其详细说明

2. 领域模型的训练方法论

a. 针对上诉难点的各种方法论

听众收益：

1. 了解领域模型与通用模型的不同

2. 了解领域模型存在的几大难点

3. 如何应对这三大难点的多种可行方法论

黄月红

滴普科技语言模型研究员

个人介绍：滴普科技语言模型研究员，“CHAOS万有引力”公众号作者，发表过多篇国际会议和sci论文，五年深度模型开发经验。主要研究方向为大语言模型，机器视觉，有丰富的模型开发优化经验，同时在因果推断，推荐系统，知识图谱等领域也有一定兴趣和开发经验。

演讲题目：大语言模型优化：Fine-Tuning 技术与方法实践

演讲提纲：

1. Fine-Tuning 大语言模型的必要性分析

a. 什么样的情况下需要 fine-tuning 大语言模型

b. fine-tuning 大语言模型需要准备些什么

2. fine-tuning 算法介绍

a. 一般过程及原理

b. 模型量化

c. qlora

d. Neftune

e. …

3. 测试自己的大语言模型

a. 各种测试平台，工具，方法，标准介绍

b. 定义自己的测试指标和方式

听众收益：

1. 了解如何 fine-tuning 大语言模型

2. 了解 fine-tuning 的方法和策略

3. 了解 fine-tuning 大语言模型评估方法

杨明皓

数造科技高级大数据技术专家

个人介绍：英国谢菲尔德大学计算机硕士，海南数造科技高级技术专家。10年+金融行业实践经验，10年+大数据、知识图谱与自然语言研发经验。

演讲题目：DataOps 加大模型促进数据工程创新

演讲提纲：在数字化时代，数据管理和分析至关重要，而传统数据管理和分析存在诸多的挑战，在此背景下通过分析 DataOps 大模型的特点，提出 DataOps 的基础上结合大模型能力，实现数据工程的敏捷和智能化，促进数据分析的快速交付和数据民主。本次分享的主要内容包括：

1. 传统数据管理面临的挑战

2. DataOps 与大模型结合激活数据工程潜力

3. 数造科技 DataOps 与大模型的产品落地实践

4. 未来展望

听众收益：

1. DataOps 的工作流程

2. 大模型 Text2SQL 的能力

3. DataOps + 大模型如何进一步提效数据工程

于翔

新浪微博资深算法工程师

个人介绍：于翔，新浪微博机器学习平台深度学习框架负责人，目前主要负责机器学习平台的大规模稀疏模型训练推理服务、图深度学习系统等。

演讲题目：大规模图深度学习训练在新浪微博的工程落地实践

演讲提纲：本次主要跟大家分享在大规模图学习落地过程中，遇到的一些问题与解决方法，其中包大规模图训练的挑战，开源训练框架选择与落地优化，介绍下图学习场景的业务实践。

听众收益：了解大规模GNN遇到的训练挑战与解决方案。

付庆午

OPPO 数据智能中心大数据架构师

个人介绍：目前在OPPO数据架构组负责架构演进研发，Spark 开源RSS项目Shuttle发起人，曾供职去哪儿网大数据，阿里云MC团队。

演讲题目：OPPO下一代大数据AI一体架构实践

演讲提纲：

技术架构：

1、云原生的计算架构：

云上极致弹性计算架构助力大幅降本

2、大数据AI一体化数据湖架构：

秒级实时、元数据管理、自动索引构建、非结构化数据管理

应用落地：

1、多数据源一键实时入湖，多维度数据秒级查询可见，代替部分实时场景对kafka依赖，流批一体，实现大幅降本增效

2、基于数据湖的实时特征平台建设，基于实时湖仓+Flink，实现流批一体特征工程数据开发，PB级特征近实时更新

3、大模型非结构化文本训练数据入湖，加速大语言模型训练

4、数据湖在混合云场景应用

听众收益：了解新一代大数据AI一体架构如何在公有云上降本增效，大数据和AI如何在数据层一体化，不仅了解数据湖本身的技术架构，同时将了解在实时湖仓、搜推算法、大模型训练、混合云上不同场景的应用落地经验。

张森森

平安科技数据管理部技术平台组负责人

电子科技大学硕士毕业，曾服务于中通服，TeraData 等知名公司。现就职于平安科技数据管理部门，任技术平台组负责人（高级经理），曾负责引领集团数据中台的规划、建设，现负责集团数据技术管理运营工作以及集团数据管理相关平台的建设。

冯可

腾讯公共数据平台部内容智能应用组/AI组副组长

个人介绍：上海交通大学、佐治亚理工学院双硕士。毕业后就职于腾讯，先后参与和负责QQ旋风、QQ公众号、腾讯看点、QQ浏览器、游戏内容中台相关数据和AI建设工作。

演讲题目：AIGC在游戏内容创作领域的应用

演讲提纲：

1.行业背景

游戏内容业务背景

研究现状与挑战

游戏智能创作效果

2.文本生成与游戏内容创作

文本生成相关技术

在实际场景的应用效果

3.图片生成与游戏内容创作

图片生成相关技术

在实际场景的应用效果

4.视频生成与游戏内容创作

视频生成相关技术

在实际场景的应用效果

5.未来的机遇与挑战

听众收益：

1、了解游戏内容业务背景，以便更好地把握市场趋势和发展方向

2、了解游戏智能创作的研究现状与挑战

3、掌握文本生成、图片生成和视频生成等相关技术在游戏内容创作中的应用，为实际业务提供参考

吴立

炎凰数据研发工程师

个人介绍：硕士，毕业于上海交通大学，在上海炎凰数据主要负责时序数据库的开发。之前在Splunk工作，主要参与数据采集相关的开发工作。

演讲题目：使用JIT技术实现高效的数据库表达式求值

演讲提纲：

1. 介绍数据库表达式求值的一般方法

· 什么是表达式求值问题

· 常见方法如向量化/JIT/树遍历等

· 不同的数据库的解法

2. JIT即时编译技术

· 什么是JIT即时编译技术

· JIT技术的优缺点

3. 使用Gandiva表达式编译器

· 介绍Apache Arrow

· 介绍Gandiva表达式编译器, LLVM及其工作

听众收益：

1. 如何对数据库表达式求值

2. JIT即时编译技术的基本概念以及为什么需要JIT

3. 如何使用Apache Arrow/Gandiva的JIT即时编译技术加速计算

张杰

阿里云人工智能平台PAI深度学习框架负责人

个人介绍：张杰，长期从事大数据、云计算、深度学习相关方向，擅长云计算、深度学习平台、超大规模模型训练、自动模型并行策略等领域。负责PAI平台的深度学习框架ChatLearn、TorchAcc和EPL等。

演讲题目：PAI-ChatLearn：灵活易用、大规模 RLHF 高效训练框架

演讲提纲：PAI-ChatLearn 是阿里云机器学习平台 PAI 团队自主研发，灵活易用、大规模模型 RLHF 高效训练框架。支持大模型进行 SFT（有监督指令微调）、RM（奖励模型）、RLHF（基于人类反馈的强化学习）完整训练流程。PAI-ChatLearn 支持大规模（175B + 175B）模型的 RLHF 高效训练。本次演讲对 PAI-ChatLearn 的架构、性能、以及如何进行高效 RLHF 训练等进行简要的介绍。

雷春蔚

阿里云 MaxCompute SQL 引擎技术专家，Apache Calcite PMC

个人介绍：雷春蔚，Apache Calcite PMC，具有多年大数据从业经验，主攻 SQL 引擎性能优化，先后负责了阿里云 MaxCompute 物化视图、dynamic filter、索引等核心功能的设计和开发。

演讲题目：物化视图在 MaxCompute 中的探索与实践

演讲提纲：物化视图是将查询预先计算并存储的一张特殊的物理表，当执行相关查询时，可以复用预计算结果，提高查询性能，是降本增效的妙招；本次演讲将从物化视图创建、物化视图维护、物化视图应用和物化视图推荐及自动物化视图4个方面介绍物化视图在 MaxCompute 中的探索和实践。

田奇铣

阿里云高级产品专家、阿里云DataWorks产品负责人

个人介绍：阿里云DataWorks产品负责人，打造全链路数据开发治理平台支撑阿里巴巴集团与阿里云上众多客户的数字化转型。

演讲题目：阿里云DataWorks：新一代“Data+AI”数据开发与数据治理平台的产品演进

罗明波

vivo 互联网大数据专家

个人介绍：曾先后就职于TCL、vivo等公司，拥有9年互联网领域和大数据领域实践经验，长期从事互联网高并发、高性能、海量数据接入、海量消息处理等领域的相关工作。对于互联网、物联网、大数据领域服务稳定性、架构升级、增效将本等场景有较为丰富的方案设计及落地经验。目前就职于vivo公司担任vivo互联网大数据专家，负责超大数据规模下分布式消息中间件的架构升级、可用性保障、增效降本及分布式消息中间件容器化等方面工作。

演讲题目：vivo 超大数据规模下分布式消息中间件架构演进实践

演讲提纲：

1. 十万亿级消息中间件架构演进实践

2. 超大数据规模下Pulsar核心架构优势

3. 超大数据规模下消息中间件高可用保障体系及可观测

4. 未来规划

听众收益：

1. 了解vivo 日均十万亿级的消息规模下分布式消息中间件平台在高可用性、增效降本等场景下的技术方案思考和相关难点问题的解决思路，以及下一代云原生分布式消息中间件Pulsar在超大数据规模下的架构优势

2. 了解vivo 超大数据规模下消息中间件高可用保障体系及可观测实践

3. 了解vivo 超大数据规模下消息中间件未来规划

余文毅

OPPO 互联网广告召回算法负责人

个人介绍：余文毅，2020年加入 OPPO，现任互联网广告召回算法负责人。先后就职于腾讯、OPPO，长期深耕广告推荐算法领域。目前主要负责召回算法优化，也在重排算法、行业优化算法等领域有一定实践。

演讲题目：OPPO 广告召回算法实践与探索

演讲提纲：主要介绍 OPPO 互联网广告业务下，“面向最终目标的广告召回算法”的实践与探索经验，包括：

1. 召回模型架构选型的分析与实践

2. 召回离线评估标准的建设与迭代

3. “面向最终目标的广告召回算法”的业务优化实践与模型优化探索

听众收益：希望能通过我们的分享，给从业者们一些参考：

1. “面向最终目标的广告召回算法”的利与弊

2. 召回算法离线评估指标的探索经验

3. 召回算法的业务优化与模型探索经验

袁文兵

vivo 互联网大数据架构师

个人介绍：计算机科学与技术硕士，曾任职于腾讯，现在 vivo 负责大数据研发工作，OLAP 项目负责人，专注于大数据系统和 OLAP 数据库的技术研发工作，具有8年大数据从业经验。

演讲题目：ClickHouse 在 vivo 的应用实践

演讲提纲：

1. vivo OLAP 的发展历程与选型

2. ClickHouse 的稳定性实践

3. ClickHouse 查询优化实践

4. ClickHouse 实践案例

听众收益：

1. 了解 ClickHouse 常见的稳定性问题及解决方案

2. 了解 ClickHouse 的查询优化方面的实践技巧

3. ClickHouse 如何赋能业务，带来降本增效

孙弘毅

微信大数据研发高级工程师

个人介绍：硕士毕业于南京大学计算机系，具有多年大数据和分布式系统研发经验，对 Spark、Flink、Kafka、Pulsar 等大数据组件和消息中间件有深入的理解，目前在微信 WeOLAP 团队参与以 Clickhouse 为基座的海量数据亚秒级分析系统研发。

演讲题目：WeOLAP：微信 OLAP 新场景优化实践

演讲提纲：

1. ClickHouse 在微信的新应用场景

2. 如何进行查询性能观测

3. 湖仓读取场景优化

4. 实验场景优化

5. 向量数据库应用 & embedding 检索优化

黄海林

灵犀互娱技术专家

个人介绍：黄海林，灵犀互动数据服务 leader，Roaringbitmap Java 版 BSI 作者。

演讲题目：Bit-sliced-index：基于 Roaringbitmap 的人群 OLAP 分析、在线服务的 one more thing?

演讲提纲：

1. 灵犀互娱面向游戏用户的数据难题

2. 元数据驱动数据架构设计

听众收益：

1. 人群和指标的高效联动分析

2. 高性能人群服务如何设计

唐凯麟

灵犀互娱高级研发工程师

个人介绍：唐凯麟，计算机科学与技术硕士，专注于大数据系统和数据平台的技术研发工作，现在主要负责阿里巴巴-灵犀互娱数据平台开发。

演讲题目：Bit-sliced-index：基于 Roaringbitmap 的人群 OLAP 分析、在线服务的 one more thing?

演讲提纲：此次分享将介绍现代 DMP 平台中的数据存储与计算面临的特点与挑战，以及为灵犀互娱针对海量数据的建模与存储计算优化策略。具体包括：

1. 灵犀互娱业务数据应用现状及挑战

2. 基于 Roaring Bitmap 与 Bit-Index Slice 的数据存储、计算原理介绍

3. 案例分享

听众收益：

1. 海量数据建模、存储与计算解决方案

2. 如何构建高效的海量数据平台架构快速进行数据分析

活动日程

2023-11-24

2023-11-25

2023-11-24
09:00 -12:10

主题演讲

2023-11-24
09:00-09:40

大数据 AI 一体化解读

嘉宾

罗义云

阿里云资深技术专家，阿里云人工智能平台PAI工程技术负责人

2023-11-24
09:40-10:20

金融大模型技术创新与应用探索

嘉宾

杨青

度小满技术委员会执行主席、数据智能应用部总经理

2023-11-24
10:20-11:00

OPPO 应用分发在推荐领域提效上的实践与思考

嘉宾

赖洪科

OPPO 互联网应用研发平台总经理

2023-11-24
11:00-11:40

走向千行百业的大模型

嘉宾

肖仰华博士

复旦大学教授、上海市数据科学重点实验室主任

2023-11-24
11:40-12:10

圆桌讨论：大模型时代，Data+AI的变与不变

嘉宾

肖仰华博士

复旦大学教授、上海市数据科学重点实验室主任

陈峭霖

腾讯游戏首席数据科学家

费浩峻

奇富科技首席算法科学家

刘一鸣

阿里云大数据产品负责人

2023-11-24
14:00 -16:35

湖仓一体架构演进论坛

出品人：王鑫蚂蚁集团大数据部实时数据负责人

2023-11-24
14:00-14:45

湖仓一体加速引擎Bolt及在字节跳动火山引擎LAS的应用

嘉宾

杨嘉义

字节跳动 LAS 查询引擎负责人

2023-11-24
14:45-15:30

Apache Paimon：实时数据湖 Streaming Lakehouse 的存储特性解读

嘉宾

蒋晓峰

哔哩哔哩基础架构部资深开发工程师

2023-11-24
15:30-15:50

茶歇

2023-11-24
15:50-16:35

基于 StarRocks 和 Paimon 打造湖仓分析新范式

嘉宾

王日宇

阿里云高级软件开发工程师

2023-11-24
14:00 -16:35

数据指标体系建设与应用论坛

出品人：景生军 YY直播大数据负责人

2023-11-24
14:00-14:45

数据采集治理

嘉宾

韩钰

腾讯 PCG 数据上报系统负责人

2023-11-24
14:45-15:30

YY直播业务指标治理实践

嘉宾

邓琴丰

YY直播数据产品负责人

2023-11-24
15:30-15:50

茶歇

2023-11-24
15:50-16:35

机器翻译数据增强实践

嘉宾

谢凝

华为技术专家

2023-11-24
14:00 -17:20

大模型训练推理与微调论坛

出品人：李永阿里云人工智能平台PAI引擎负责人

2023-11-24
14:00-14:45

PAI-ChatLearn：灵活易用、大规模 RLHF 高效训练框架

嘉宾

张杰

阿里云人工智能平台PAI深度学习框架负责人

2023-11-24
14:45-15:30

简化并加速AI/ML模型训练&推理的数据访问

嘉宾

傅正佳

Alluxio 首席架构师

2023-11-24
15:30-15:50

茶歇

2023-11-24
15:50-16:35

盘古大模型微调实践

嘉宾

吴章淋

华为 NLP算法研究工程师

2023-11-24
16:35-17:20

TensorRT LLM 介绍

嘉宾

周国峰

NVIDIA DevTech 研发经理

2023-11-24
14:00 -17:20

大模型行业实践

出品人：费浩峻奇富科技首席算法科学家

2023-11-24
14:00-14:45

业务理解和逻辑推理是金融行业大模型运转的动力

嘉宾

杨剑

奇富科技高级算法总监

2023-11-24
14:45-15:30

当好故事插上大模型的翅膀

嘉宾

陈炜于

阅文集团技术副总经理

2023-11-24
15:30-15:50

茶歇

2023-11-24
15:50-16:35

大模型在汽车行业的应用与实践

嘉宾

黄帅

蔚来汽车 GPT应用技术负责人

2023-11-24
16:35-17:20

EILaw : 面向企业法务数字化的中文LLM

嘉宾

陈祖龙

阿里巴巴企业智能算法负责人

2023-11-24
14:00 -17:20

图机器学习前沿与应用论坛

出品人：焦学武百度主任架构师

2023-11-24
14:00-14:45

超⼤⾏为异构图的表征学习及应⽤

嘉宾

胡伟

百度资深研发工程师

2023-11-24
14:45-15:30

腾讯游戏的图学习研究与落地

嘉宾

姚亮

腾讯高级研究员

2023-11-24
15:30-15:50

茶歇

2023-11-24
15:50-16:35

大规模图深度学习训练在新浪微博的工程落地实践

嘉宾

于翔

新浪微博资深算法工程师

2023-11-24
16:35-17:20

图计算在 Akulaku 智能风控中的应用

嘉宾

黄泓

Akulaku 资深算法开发工程师

2023-11-24
14:00 -16:35

游戏与AIGA论坛

出品人：陈峭霖腾讯游戏首席数据科学家

2023-11-24
14:00-14:45

Pioneering 2D image generation for AAA games
助力3A大作：领跑2D图像生成技术

嘉宾

Alexis Rolland

Ubsoft China，Development Director

2023-11-24
14:45-15:30

Game AI Bot 如何提升玩家在PVP类游戏中的体验？

嘉宾

关凯

网易伏羲资深人工智能工程师

2023-11-24
15:30-15:50

茶歇

2023-11-24
15:50-16:35

Game+Agent 我们的初步尝试

嘉宾

刘文强

腾讯 IEG Global Manager

2023-11-25
09:00 -12:20

极致效能OLAP论坛

出品人：董旭微信专家工程师，微信数仓技术负责人

2023-11-25
09:00-09:40

ClickHouse 2024新功能与研发方向思考

嘉宾

Alexry Milovdov

ClickHouse CTO

谢志豪

ClickHouse 技术支持工程师

2023-11-25
09:40-10:20

使用 JIT 技术实现高效的数据库表达式求值

嘉宾

吴立

炎凰数据研发工程师

2023-11-25
10:20-11:00

WeOLAP：微信 OLAP 新场景优化实践

嘉宾

孙弘毅

微信大数据研发高级工程师

2023-11-25
11:00-11:40

Bit-sliced-index：基于 Roaringbitmap 的人群 OLAP 分析、在线服务的 one more thing

嘉宾

黄海林

灵犀互娱技术专家

唐凯麟

灵犀互娱高级研发工程师

2023-11-25
11:40-12:20

ClickHouse 在 vivo 的应用实践

嘉宾

袁文兵

vivo 互联网大数据架构师

2023-11-25
09:00 -12:00

新一代数据架构

出品人：王海华货拉拉大数据基础架构负责人、大数据架构师

2023-11-25
09:00-09:45

货拉拉大数据下一代基础架构实践与思考

嘉宾

何洋

货拉拉大数据专家

2023-11-25
09:45-10:30

知乎大数据跨机房实践

嘉宾

贾承昆

知乎数据平台负责人

2023-11-25
10:30-11:15

OPPO下一代大数据AI一体架构实践

嘉宾

付庆午

OPPO 数据智能中心大数据架构师

2023-11-25
11:15-12:00

vivo 超大数据规模下分布式消息中间件架构演进实践

嘉宾

罗明波

vivo 互联网大数据专家

2023-11-25
09:00 -12:00

云原生大数据迭代论坛

出品人：周强 OPPO 数据架构负责人

2023-11-25
09:00-09:45

混合云原生大数据底盘

嘉宾

曾昭正

顺丰科技大数据高级研发工程师

2023-11-25
09:45-10:30

零售行业永辉超市云原生数据中台的探索与实践

嘉宾

马吉辉

永辉超市大数据架构师

2023-11-25
10:30-11:15

物化视图在 MaxCompute 中的探索与实践

嘉宾

雷春蔚

阿里云 MaxCompute SQL 引擎技术专家，Apache Calcite PMC

2023-11-25
11:15-12:00

火山引擎 ByteHouse 的云原生探索与实践

嘉宾

任强

火山引擎 ByteHouse 技术专家

2023-11-25
09:00 -12:00

推荐系统变革论坛

出品人：黄帆腾讯专家研究员

2023-11-25
09:00-09:45

面向2026年的推荐算法前瞻

嘉宾

肖玄基

Shopee 内容电商算法负责人

2023-11-25
09:45-10:30

OPPO 广告召回算法实践与探索

嘉宾

余文毅

OPPO 互联网广告召回算法负责人

2023-11-25
10:30-11:15

QQ音乐推荐排序算法实践

嘉宾

孙嘉琨

腾讯音乐推荐算法工程师

2023-11-25
11:15-12:00

强化学习在推荐系统中的实践探索与业界进展

嘉宾

张启华

虎牙直播推荐算法工程师

2023-11-25
09:00 -12:00

DEEPNOVA大模型论坛

出品人：吴小前滴普科技 CTO

2023-11-25
09:00-09:45

领域模型生产指南

嘉宾

陈峰

滴普科技 Senior Research Fellow

2023-11-25
09:45-10:30

使用 OpenLLM 构建和部署大模型应用

嘉宾

明希

BentoML 高级软件工程师

2023-11-25
10:30-11:15

大语言模型优化：Fine-Tuning 技术与方法实践

嘉宾

黄月红

滴普科技语言模型研究员

2023-11-25
11:15-12:00

大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索

嘉宾

刘焕勇

360 人工智能研究院算法专家、知识图谱方向负责人、360智脑项目组核心成员

2023-11-25
09:00 -11:15

AIGC与智能交互

出品人：万里进百度主任架构师

2023-11-25
09:00-09:45

多模内容理解在百度商业广告中的探索实践

嘉宾

金志鹏

百度资深研发工程师

2023-11-25
09:45-10:30

教育领域大模型的技术和应用

嘉宾

苏喻

合肥综合性国家科学中心人工智能研究院副研究员

2023-11-25
10:30-11:15

通义星尘个性化大模型相关技术与应用

嘉宾

严明博士

阿里巴巴通义实验室文档智能技术负责人

2023-11-25
14:00 -17:20

数据治理发展趋势论坛

出品人：孙伟快手资深数据架构师

2023-11-25
14:00-14:45

蚂蚁新一代数字智能化治理平台 AutoFinOps 实践与探索

嘉宾

林天权

蚂蚁集团高级数据技术专家

2023-11-25
14:45-15:30

DataOps 加大模型促进数据工程创新

嘉宾

杨明皓

数造科技高级大数据技术专家

2023-11-25
15:30-15:50

茶歇

2023-11-25
15:50-16:35

快手数据成本白盒化治理实践

嘉宾

冯赞锋

快手大数据架构师

2023-11-25
16:35-17:20

阿里云 DataWorks 湖仓融合数据治理与大模型应用探索

嘉宾

田奇铣

阿里云高级产品专家、阿里云DataWorks产品负责人

2023-11-25
14:00 -18:05

AB实验应用与发展论坛

出品人：王勇微信实验平台负责人、数据科学专家

2023-11-25
14:00-14:45

货运双边市场实验的挑战和实践

嘉宾

王世伟

货拉拉增长数据科学负责人

2023-11-25
14:45-15:30

因果推断与医学研究

嘉宾

胡金波

重庆医科大学附属第一医院内分泌科副研究员，主治医师

2023-11-25
15:30-15:50

茶歇

2023-11-25
15:50-16:35

如何保证实验外部有效性（External Validity）

嘉宾

韩士超

腾讯微信实验平台数据科学家

2023-11-25
16:35-17:20

A/B测试中的实时监测策略与加速方法

嘉宾

詹若涵

香港科技大学助理教授

2023-11-25
17:20-18:05

知乎实验平台工程实践

嘉宾

杨昆

知乎实验平台技术负责人

2023-11-25
14:00 -17:20

AIGC与业务提效论坛

出品人：刘旭淘天集团内容技术负责人

2023-11-25
14:00-14:45

生成式AI在淘宝内容的研究与应用

嘉宾

俞一鹏

淘天集团高级算法专家

2023-11-25
14:45-15:30

多模态预训练模型在OPPO端云场景的落地实践

嘉宾

陈宸

OPPO 研究院高级算法工程师

2023-11-25
15:30-15:50

茶歇

2023-11-25
15:50-16:35

大模型从训练到产品落地分享

嘉宾

付凡

vivo 人工智能部门算法总监

2023-11-25
16:35-17:20

AIGC在游戏内容创作领域的应用

嘉宾

冯可

腾讯公共数据平台部内容智能应用组/AI组副组长

2023-11-25
14:00 -16:35

数智金融效能建设论坛

出品人：尹正中国信息通信研究院云计算与大数据研究所高级业务主管

2023-11-25
14:00-14:45

模型赋能下的数据安全合规管理

嘉宾

张森森

平安科技数据管理部技术平台组负责人

2023-11-25
14:45-15:30

基于需求驱动的数据治理场景化实践

嘉宾

左银康

国信证券数据治理负责人

2023-11-25
15:30-15:50

茶歇

2023-11-25
15:50-16:35

数字化转型下的大数据平台治理

嘉宾

许璐

平安产险数据智能大数据工程师

2023-11-25
14:00 -16:35

数据产品设计实践论坛

出品人：张靖 bilibili 高级技术总监

2023-11-25
14:00-14:45

京东物流一站式敏捷BI产品规划与落地实践

嘉宾

焦文健

京东大数据产品总监

2023-11-25
14:45-15:30

线下营销的数智化应用分享

嘉宾

董沅

阿里巴巴瓴羊数字营销产品经理

2023-11-25
15:30-15:50

茶歇

2023-11-25
15:50-16:35

电商与内容型业务用增数据的基建异同

嘉宾

熊瑾

bilibili 数据产品经理

大数据 AI 一体化解读

罗义云

阿里云资深技术专家，阿里云人工智能平台PAI工程技术负责人

金融大模型技术创新与应用探索

杨青

度小满技术委员会执行主席、数据智能应用部总经理

个人介绍：杨青，度小满技术委员会执行主席、数据智能应用部总经理，硕士毕业于清华大学计算机系，曾就职于百度、阿里，从事 NLP、搜索、推荐、大数据架构等相关方向的研发工作。2018 年初加入度小满金融开始组建数据智能部，从0到1建设度小满金融的智能引擎的核心算法，深耕计算机视觉、自然语言处理、图模型、机器学习、因果推断等技术能力，多篇文章被EMNLP、ACL、CIKM等国际顶会收录，“智能化征信解读中台”工程荣获吴文俊人工智能科技进步奖。相关技术广泛应用于度小满营销、经营、风控、反欺诈全流程业务场景，为上千万客户提供着稳定、安全的金融服务。目前专注于AIGC在金融场景中的落地，基于度小满模型即服务“MaaS”的模式积极探索文生图、数字人与生成式大模型的应用转化。已于年初带领团队发布国内首个千亿中文金融大模型“轩辕”。

演讲题目：金融大模型技术创新与应用探索

演讲提纲：

1. 大模型简介

2. 开源轩辕大模型详解

3. 金融大模型应用探索

4. 总结与展望

听众收益：详细了解国内开源金融大模型的研发过程，了解大模型在金融行业中如何应用，对自研大模型以及使用大模型都有帮助。

OPPO 应用分发在推荐领域提效上的实践与思考

赖洪科

OPPO 互联网应用研发平台总经理

个人介绍：OPPO互联网应用研发平台及推搜算法部总经理，有超过14年的互联网广告研发经验，主导OPPO广告播放系统、搜索引擎等多项研发建设，也同时负责厂商应用体系数据搭建等工作。目前负责OPPO软件商店、游戏中心等研发工作，同时负责推搜部门整体技术探索及应用。

演讲题目：OPPO 应用分发在推荐领域提效上的实践与思考

演讲提纲：本次分享将为大家带来 OPPO 作为厂商在应用分发业务及推荐、大数据、算法领域上的一些差异化技术能力和思考，包含：

1. OPPO 应用分发业务场景介绍

2. OPPO 应用分发数据体系概况及架构

3. OPPO 在推荐领域提效的相关技术能力及实践应用

4. 未来在推荐领域及大数据领域的规划与方向

听众收益：

1. 了解 OPPO 在应用分发业务上的具体场景及厂商应用分发的差异化特点

2. 了解 OPPO 应用分发在推荐算法领域的技术能力、全场景数据价值及应用案例

3. 了解 OPPO 未来在端云协同、大模型等相关领域的方向

走向千行百业的大模型

肖仰华博士

复旦大学教授、上海市数据科学重点实验室主任

复旦大学教授、博导，上海青浦复旦未来技术研究院副院长，上海市数据科学重点实验室主任。长期从事大数据、认知智能研究。荣获ICDE2024十年影响力论文奖、ACL 2025 & 2023杰出论文奖。发表 CCF-A 、B 类等论文 400 余篇。出版学术专著与教材五部。入选东方英才拔尖项目。完成近百项政府及人工智能头部企业研发项目。荣获包括华为、阿里、美团等机构授予的几十项科研奖项。

圆桌讨论：大模型时代，Data+AI的变与不变

肖仰华博士

复旦大学教授、上海市数据科学重点实验室主任

复旦大学教授、博导，上海青浦复旦未来技术研究院副院长，上海市数据科学重点实验室主任。长期从事大数据、认知智能研究。荣获ICDE2024十年影响力论文奖、ACL 2025 & 2023杰出论文奖。发表 CCF-A 、B 类等论文 400 余篇。出版学术专著与教材五部。入选东方英才拔尖项目。完成近百项政府及人工智能头部企业研发项目。荣获包括华为、阿里、美团等机构授予的几十项科研奖项。

陈峭霖

腾讯游戏首席数据科学家

北京大学学士，UCLA生物统计系博士，2013年底毕业后在诺华制药任首席统计师，从事临床试验统计分析和医药大数据研究；2017年加入SparkBeyond任资深数据科学家, 为世界五百强企业提供可落地的大数据解决方案。2018年加入腾讯游戏数据挖掘团队，目前致力于游戏出海领域的机器学习、推荐系统、用户画像、知识图谱等的研究和应用，同时打造业界领先的游戏领域通用数据挖掘平台。

费浩峻

奇富科技首席算法科学家

费浩峻，奇富科技首席算法科学家，数据智能部、大模型部总经理。全面负责 360数科数智化工作的研究和落地。深耕智能增长技术十余年、金融科技的创新者，曾任百度金融/度小满主任架构师，腾讯专家研究员。长期投身于广告、检索和增长等应用研究领域，专注于大数据、人工智能研究方向，对技术如何驱动业务发展有着丰富的经验和独到的理解，拥有大数据、NLP、计算广告、信息处理等专利二十余项。本科毕业于华中师范大学，硕士毕业于北京大学。2021年加入360数科，从数据安全、数据生态、大模型计算着手, 推动360数科的人工智能技术体系不断完善升级。围绕金融科技场景，带领人工智能团队打造了新一代的智能增长平和智能征信中台，带领团队推出业内首个金融垂类大模型，以大模型为基础在对话机器人、客服管理、用户经营等方向进行了全面的升级。

刘一鸣

阿里云大数据产品负责人

个人介绍：刘一鸣，目前负责阿里云ODPS等自研大数据产品，主攻云原生一体化数仓引擎能力的演进和商业化，在数据仓库、大数据计算、开源大数据行业有15年以上工作经验。原Kyligence 副总裁，Apache Kylin PMC。

演讲题目：阿里云大数据AI一体化最佳实践

演讲简介：Data+AI时代，大数据平台该如何建设？我们认为需要具备计算效率、开发效率、处理效率为一体的高效能力，才能保障企业AI时代下的业务创新。阿里云提供了从数据集成、清洗、建模、计算到服务的大数据+AI整套产品解决方案。同时，阿里云自研大数据平台 MaxCompute 推出分布式计算框架 MaxFrame，100% 兼容 Pandas 等数据处理接口，打通数据管理、大规模数据分析、处理到 ML 开发全流程，打破大数据及 AI 开发使用边界，大幅提升开发效率，助力企业快速构建AI时代的基础设施。

湖仓一体加速引擎Bolt及在字节跳动火山引擎LAS的应用

杨嘉义

字节跳动 LAS 查询引擎负责人

个人介绍：曾在百度智能云、大数据等部门从事数据分析和服务、数据科学等工作，拥有十多年的开发和架构经验。当前负责字节跳动火山引擎 LAS 底层的湖仓一体加速引擎 Bolt 和 Presto 方向。

演讲题目：湖仓一体加速引擎 Bolt 及在字节跳动火山引擎 LAS 的应用

演讲提纲：Spark、Presto 等引擎原 Java 执行的性能优化进入瓶颈期，而基于向量化和编译优化的 native 引擎，可获两倍性能加速比，降低资源成本。Bolt 已经在字节跳动内部 SparkSQL、Presto 大规模上线，加速效果显著，其特色有：面向多场景统一加速、端到端向量化执行。本次分享将介绍 Bolt 的意义、架构和在火山引擎 LAS 产品的应用实践。

1. Bolt 的背景和意义

2. Bolt 的架构设计

3. Bolt 的核心特色

4. Bolt 在火山引擎湖仓一体产品 LAS 的实践

听众收益：

1. 了解基于向量化和编译优化的 Bolt 加速引擎，如何获得 2x 加速比和 40% 资源节约。

2. 了解火山引擎湖仓一体产品 LAS 的架构、特色及应用场景。

3. 了解 Bolt 在湖仓一体产品 LAS 的应用现状及主要收益。

Apache Paimon：实时数据湖 Streaming Lakehouse 的存储特性解读

蒋晓峰

哔哩哔哩基础架构部资深开发工程师

个人介绍：哔哩哔哩资深开发工程师，Apache Paimon PPMC，Apache Kyuubi & RocketMQ Committer，主要负责哔哩哔哩 Remote Shuffle Service。

演讲题目：Apache Paimon：实时数据湖 Streaming Lakehouse 的存储特性解读

演讲提纲：

1. 实时数据湖痛点剖析

2. Apache Paimon 架构概览

3. Apache Paimon 特性解读

4. Apache Paimon 入湖实践

5. Apache Paimon 规划展望

听众收益：了解实时数据湖 Streaming Lakehouse 的存储底座概况，熟悉 Apache Paimon 实时数据湖的架构原理和实践案例。

茶歇

基于 StarRocks 和 Paimon 打造湖仓分析新范式

王日宇

阿里云高级软件开发工程师

个人介绍：计算机科学与技术硕士，专注于大数据系统和 OLAP 数据库的技术研发工作，现在主要负责开源 StarRocks 项目内核开发。

演讲题目：基于 StarRocks 和 Paimon 打造湖仓分析新范式

演讲提纲：

1. 数据湖技术发展的演进介绍

2. 使用 StarRocks + Paimon 湖仓分析方案主要场景介绍

3. 使用 StarRocks 构建 Paimon 物化视图和数据湖分析的关键技术原理介绍

4. 使用 StarRocks + Paimon 湖仓分析能力的未来技术规划

听众收益：

1. 了解数据湖技术发展的演进

2. 了解如何使用 StarRocks + Paimon 构建湖仓分析方案

3. 了解 StarRocks + Paimon 湖仓分析的核心技术原理

数据采集治理

韩钰

腾讯 PCG 数据上报系统负责人

个人介绍：硕士毕业于中国科学院计算机网络信息中心，曾先后就职于百度、滴滴、腾讯等公司，目前在腾讯数据中台负责数据上报系统，深耕数据上报质量和效率，实现PCG的全业务覆盖。

演讲题目：数据采集治理

演讲提纲：

1、引子

1）数据采集的深广准决定了指标应用的能力上限，指标治理需要从采集源头开始

2）数据采集其实就做一件事：将真实的客观世界数字化并记录下来

3）做好数据采集的终极目标是质量和效率

2、质量

1）数据质量问题60%～80%发生在采集阶段，在指标应用阶段才发现质量问题会让人气馁，排查也很低效

2）新一代数据质量审查工具，让人们对数据质量的认知从合规检查提升到合理分析

3）质量审查能让人一眼看穿数据质量，让指标使用方可以放心大胆的使用采集数据

4）智能判定则可让机器自动发现问题，基于灰度主流对比、主流日期环比等一系列相关性对比思路

5）行为诊断可用来帮助诊断一些数据采集的疑难杂症，通过可视化单个用户的全部行为轨迹

6）补充其他质量工具，总结实践经验

3、效率

1）效率瓶颈很多时候并不在开发上，而在对需求的梳理、沟通、反复修改、录入、验收，以及后续长久的维护上

2）定义终端数据采集模型，在事件的基础上增加页面和元素，标准化采集口径，约定大于灵活

3）实现在线文档与需求面板的同步，既利用了在线文档的便捷，又能在需求面板中完成Diff对比、测试验收等操作

4）利用采集SDK帮助提升开发效率，用一套API 引导开发者按采集模型来埋点，可选的用自动和半自动采集来减轻开发负担，搭配一套高效的测试诊断工具

5）建立退出机制，基于ROI（血缘热度/成本）的生命周期管理

4、展望

1）质量和效率我们在路上

听众收益：

1、了解新一代数据质量审查工具，让人快速看清数据质量，让机器自动发现问题

2、了解如何才能把数据采集的效率做好

YY直播业务指标治理实践

邓琴丰

YY直播数据产品负责人

个人介绍：目前负责YY直播数据产品的总体规划，带领团队落地包括数据开发管理、数据治理、数据分析、数据服务、用户画像及运营分析等数据平台及应用产品；有10年+的大数据分析及产品经历。

演讲题目：YY直播业务指标治理实践

演讲提纲：烟囱式的需求开发沉积大量数据模型及数据报表；而业务指标管理存在技术口径和业务口径混用，同名不义及同义不同名等问题；通过业务指标的体系化梳理及构建，引入指标生命周期管理机制，清理融合存量数据模型及报表；最终面对业务用户，构建以指标目录为入口的自助购物式的数据获取及分析体验，提纲如下：

1. 存在的问题及原因分析

2. 业务指标体系化构建

3. 业务指标管理驱动数据治理

4. 自助购物式的指标分析

听众收益：

1. 如何梳理并构建业务指标体系？

2. 如何利用指标管理驱动数据治理？

3. 指标管理产品构建及运营的实战经验

茶歇

机器翻译数据增强实践

谢凝

华为技术专家

个人介绍：华为翻译中心技术专家，华为机器翻译产品和数据负责人，中国翻译协会翻译技术委员会副主任委员。于2006年加入华为，有丰富的机器翻译产品开发和数据构建经验。

演讲题目：机器翻译数据增强实践

演讲提纲：介绍华为翻译中心在机器翻译任务上的数据处理、数据增强实践。

听众收益：

1. 如何提升机器翻译训练数据的质量。

2. 哪些是更有效的机器翻译数据增强策略。

PAI-ChatLearn：灵活易用、大规模 RLHF 高效训练框架

张杰

阿里云人工智能平台PAI深度学习框架负责人

个人介绍：张杰，长期从事大数据、云计算、深度学习相关方向，擅长云计算、深度学习平台、超大规模模型训练、自动模型并行策略等领域。负责PAI平台的深度学习框架ChatLearn、TorchAcc和EPL等。

演讲题目：PAI-ChatLearn：灵活易用、大规模 RLHF 高效训练框架

演讲提纲：PAI-ChatLearn 是阿里云机器学习平台 PAI 团队自主研发，灵活易用、大规模模型 RLHF 高效训练框架。支持大模型进行 SFT（有监督指令微调）、RM（奖励模型）、RLHF（基于人类反馈的强化学习）完整训练流程。PAI-ChatLearn 支持大规模（175B + 175B）模型的 RLHF 高效训练。本次演讲对 PAI-ChatLearn 的架构、性能、以及如何进行高效 RLHF 训练等进行简要的介绍。

简化并加速AI/ML模型训练&推理的数据访问

傅正佳

Alluxio 首席架构师

本科毕业于上海交通大学电子系，随后取得香港中文大学信息工程博士学位，毕业后加入新加坡高级数字科学中心（美国伊利诺伊大学在新加坡的研究所）从事科研工作，在计算机网络和分布式系统领域相关的顶级国际会议发表多篇论文。加入Alluxio前，傅正佳曾在新加坡科技公司Bigo Technology担任机器学习研发总监。

茶歇

盘古大模型微调实践

吴章淋

华为 NLP算法研究工程师

个人介绍：南京邮电大学硕士研究生毕业，目前就职于华为，从事nlp算法研究工作，研究方向主要包括大模型、机器翻译、语音翻译和知识图谱等领域，相关研究成果发表于ACL，EMNLP和IJCKG等会议，发表论文共计10余篇，也参加过近两年的WMT、CCMT、IWSLT、NLPCC、CCKS比赛，并拿下了多个赛道的第一。

演讲题目：盘古大模型微调实践

演讲提纲：

1. 什么是大模型

2. 大模型发展历程

3. 大模型微调目的

4. 大模型微调技术

5. 大模型微调加速方法

6. 大模型微调效果提升手段

听众收益：

1. 如何进行大模型微调？

2. 如何加速大模型微调？

3. 如何提升大模型微调效果？

TensorRT LLM 介绍

周国峰

NVIDIA DevTech 研发经理

个人介绍：2014 年毕业于中国科学院。毕业后加入 NVIDIA 至今，任 DevTech 团队研发经理。主要负责中国区大客户技术项目合作和技术研发。

演讲题目：TensorRT LLM 介绍

演讲提纲：TensorRT LLM 是 NVIDIA 加速 LLM 推理的开源解决方案。TensorRT LLM 提供了 python 接口，灵活的模块化组件，丰富的预定义主流模型，极大地方便了开发者在 NVIDIA平台上部署基于 LLM 的服务；同时，NVIDIA 投入了大量工程师对 TensorRT LLM 做了极致优化，包括主流的量化算法（smoothQuant, GPTQ, and AWQ）, in-flight batching, Tensor 和 pipeline 并行等推理加速优化方法。TensorRT LLM 除了具备业界领先的推理性能，同时也在不断提高它的易用性。

1 什么是 TensorRT LLM?

2 TensorRT LLM 主要特点

3 如何使用 TensorRT LLM

4 TensorRT LLM 性能

5 TensorRT LLM 展望

听众收益：

1 理解 TensorRT LLM 产品定位

2 熟悉 TensorRT LLM 主要功能和使用方法

3 了解 TensorRT LLM 主要优化手段

业务理解和逻辑推理是金融行业大模型运转的动力

杨剑

奇富科技高级算法总监

个人介绍：负责奇富科技风控、营销、获客等相关算法和数据挖掘业务。构建奇富科技大数据体系，大语言模型、图计算等技术框架。在意图识别、行为序列、图计算等算法上，带领团队进行算法创新，实现金融信贷领域的深度落地。多年从事信贷风控领域算法研究和实施，曾经负责全场景风控模型的建设、数据生态建设等。

演讲题目：业务理解和逻辑推理是金融行业大模型运转的动力

演讲提纲：金融行业几乎是众多行业中，最早进行数字化的行业，科技一直伴随着金融行业的发展，而大模型的运用将带来金融的科技属性的又一次飞升。金融行业的大模型和其他行业最大的区别，在于金融行业的业务复杂程度、行业经营规范的要求以及安全隐私保护上。并且金融场景中有很多业务判断要求十分严谨，容错率很低，对于当前大模型的能力是一个挑战。金融业务在实际经营过程中，不仅需要有总结归纳和表达输出的能力，更要具备逻辑推理的能力，而支持逻辑推理落实，并做出差异化的方法，是通过结合私有化的领域知识图谱构建的思维链、思维树或思维图。同时面对各类复杂金融业务场景，也不是单纯算力、数据和参数规模的比拼，而是要针对具体场景，利用对业务的理解，有区别化、精确化的挑选参与模型预训练、指令精调、进行RLHF所需的数据。产出的大模型所扮演的角色，也应该是单一或者有限几个领域的专家。具体内容包括：

1. 科技是金融行业发展的动力，大模型是助推金融科技能力提升的又一个助推器

2. 金融行业大模型的特殊性及其难点与挑战

3. 利用科技属性以及科技优势提升金融行业大模型效果

4. 面对挑战，金融行业大模型可以解决哪些问题

听众收益：

1. 理解金融行业大模型与其他行业的差异性

2. 理解金融行业大模型在落地过程中存在哪些难点

3. 理解如何发挥科技优势，提升金融行业大模型效果

4. 理解金融行业大模型在金融业务开展中扮演哪些角色

当好故事插上大模型的翅膀

陈炜于

阅文集团技术副总经理

茶歇

大模型在汽车行业的应用与实践

黄帅

蔚来汽车 GPT应用技术负责人

个人介绍：中科大硕士，曾服务于百度腾讯等互联网大厂，在大数据人工智能领域有十多年经验。

EILaw : 面向企业法务数字化的中文LLM

陈祖龙

阿里巴巴企业智能算法负责人

个人介绍：阿里巴巴企业智能算法负责人，资深算法专家，浙江省人工智能协会智能制造分会百人专家，山东人工智能协会专家成员，中国“双法”学会数学建模分会理事，现负责面向大型企业的数字化智能文档、企业级办公助手以及法务等领域大模型相关工作，曾负责阿里巴巴飞猪算法（搜索、推荐、广告、供应链等）团队和淘宝首页人群个性化推荐，带领团队在业务相关技术走向国内外先进水平，在WWW、SIGIR、SIGKDD、ICDE、WSDM、CIKM、AAAI等国际顶级会议和VLDB、TITS、TOIS、ITOJ、TACL等国际顶级期刊发表论文40多篇等。

超⼤⾏为异构图的表征学习及应⽤

胡伟

百度资深研发工程师

个人介绍：胡伟，百度资深研发工程师，百度大商业图模型方向负责人。

演讲题目：超⼤⾏为异构图的表征学习及应⽤

演讲提纲：

1. 背景和现状（面临的挑战）

2. 解决方案和技术创新

3. 收益和落地

听众收益：

1. 如何优化图存储

2. 如何加速图模型训练

3. 如何优化多机通信的性能

腾讯游戏的图学习研究与落地

姚亮

腾讯高级研究员

个人介绍：姚亮，现任腾讯高级研究员，博士毕业于浙江大学，曾在美国西北大学任博士后研究员。以第一作者在AAAI、SIGIR、TKDE等顶级会议及期刊发表论文多篇，谷歌学术H指数21，入选全球前2%顶尖科学家、AI 2000人工智能全球最具影响力学者。现在腾讯游戏从事图学习、大语言模型相关的研究和落地。

演讲题目：腾讯游戏的图学习研究与落地

演讲提纲：

1. 大规模图学习算法 PB-GNN

2. 链路预测算法的研究与应用落地

3. 大语言模型在知识图谱补全的应用

听众收益：熟悉大规模图学习算法，链路预测算法，图预训练算法、大语言模型和知识图谱的结合。

茶歇

大规模图深度学习训练在新浪微博的工程落地实践

于翔

新浪微博资深算法工程师

个人介绍：于翔，新浪微博机器学习平台深度学习框架负责人，目前主要负责机器学习平台的大规模稀疏模型训练推理服务、图深度学习系统等。

演讲题目：大规模图深度学习训练在新浪微博的工程落地实践

演讲提纲：本次主要跟大家分享在大规模图学习落地过程中，遇到的一些问题与解决方法，其中包大规模图训练的挑战，开源训练框架选择与落地优化，介绍下图学习场景的业务实践。

听众收益：了解大规模GNN遇到的训练挑战与解决方案。

图计算在 Akulaku 智能风控中的应用

黄泓

Akulaku 资深算法开发工程师

个人介绍：毕业于代尔夫特理工大学，专注于图计算与知识图谱在Akulaku各种智能应用的落地。

Pioneering 2D image generation for AAA games
助力3A大作：领跑2D图像生成技术

Alexis Rolland

Ubsoft China，Development Director

个人介绍：Alexis Rolland, 自2012年加入育碧，曾先后在大数据、数据分析和机器学习等领域担任多个关键职务。目前，作为La Forge中国团队开发总监，他领导着团队在技术创新领域迈出坚实的步伐。出于对新兴科学技术的执着追求，Alexis一直致力于架起学术前沿和视频游戏产业之间的桥梁，尤其在积极推动育碧生成式AI助力内容创作的革新中，发挥着关键的作用。

演讲题目：Pioneering 2D image generation for AAA games（助力3A大作：领跑2D图像生成技术）

演讲提纲： 本次演讲将介绍育碧（Ubisoft）在为3A游戏创建专有图像生成式模型方面的方法。演讲内容将包括以下部分：

• 为什么需要创建微调图像生成式模型

• 育碧的方法和方法论

• 介绍Caption Studio实用工具

• 展示图像生成式模型

听众收益：您将了解到育碧在微调图像生成式模型方面的实现方法和道德原则，及相关的指导方针和最佳实践。

Game AI Bot 如何提升玩家在PVP类游戏中的体验？

关凯

网易伏羲资深人工智能工程师

个人介绍：硕士，毕业于浙江大学计算机系。于18年3月加入网易伏羲，自21年中起负责强化学习落地方向。其专注于优化Game AI Bot的表现及策略，提升玩家游戏体验。目前成果已在多款网易雷火的游戏落地应用，如：永劫无间、逆水寒（端游、手游）、全明星街球派对，倩女幽魂（端游、手游）等。

演讲题目：Game AI Bot 在PVP场景中的应用与实践

演讲提纲：

1. PVP类游戏Game AI Bot的应用场景及案例引入

2. 如何生产满足需求Game AI Bot

3. 如何应用Game AI Bot 及其结果

4. 工作展望

听众收益：

1. 了解PVP类游戏对Game AI Bot的需求及其痛点

2. 了解现阶段的Game AI Bot的生产流程

3. 了解Game AI Bot如何联合游戏匹配系统进行应用

茶歇

Game+Agent 我们的初步尝试

刘文强

腾讯 IEG Global Manager

个人介绍：刘文强在18年博士毕业之后加入腾讯，曾负责游戏领域知识图谱构建和应用。现任腾讯IEG Global算法中心NLP组长，主要负责多语言自然语言处理的算法研发以及在腾讯海外游戏的应用设计和开发工作。

演讲题目：Game+Agent 我们的初步尝试

演讲提纲：随着最新大语言模型，例如GPT系列，PaLM2的兴起，大语言模型强大的能力为AI Agent 的突破带来了契机。大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为Agent的核心大脑，就可以实现以往难以实现的将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。本次分享主要分为下面三个部分：

1. Agent 的整体介绍

2. Agent 的技术架构拆解

3. 我们在 Agent 上一些尝试

4. 总结

听众收益：

1. 了解目前 Agent 的一些主流进展

2. 了解目前 Agent 的技术细节

3. 具体如何实践

ClickHouse 2024新功能与研发方向思考

Alexry Milovdov

ClickHouse CTO

个人介绍：Alexey 毕业于莫斯科国立大学，拥有数学学位。他的兴趣领域包括数据处理算法和技术，他热爱数据和高性能。拥有13年的设计、开发和操作数据密集型应用程序的经验。他于2009年开始着手ClickHouse初始模型的策划和开发，并于2016年将其释放为开源项目。在ClickHouse之前，他开发了全球第二大网络分析系统的数据处理引擎。

演讲题目：ClickHouse 2024 新功能与研发方向思考

演讲提纲：ClickHouse是业内公认最快的OLAP数据引擎，同时clickHouse也在面对来自包括中国区在内的全球的优秀产品的竞争，这也激励了我们更加努力地发展社区，完善我们的产品。我们非常愿意分享我们产品的新功能新特性以及未来的roadmap，我们也希望听到来自中国社区和用户的期望。

谢志豪

ClickHouse 技术支持工程师

个人介绍：Derek 谢志豪是 ClickHouse 的技术支持工程师。主要工作范围包括帮助大型客户解决重大技术问题，优化 Clickhouse 集群，提升使用体验。Derek 毕业于新加坡国立大学 (NUS) 获得信息系统学位，在 ClickHouse 工作之前一直从事数据平台的优化和管理工作。

演讲题目：ClickHouse 2024 新功能与研发方向思考

演讲提纲：ClickHouse是业内公认最快的OLAP数据引擎，同时clickHouse也在面对来自包括中国区在内的全球的优秀产品的竞争，这也激励了我们更加努力地发展社区，完善我们的产品。我们非常愿意分享我们产品的新功能新特性以及未来的roadmap，我们也希望听到来自中国社区和用户的期望。

使用 JIT 技术实现高效的数据库表达式求值

吴立

炎凰数据研发工程师

个人介绍：硕士，毕业于上海交通大学，在上海炎凰数据主要负责时序数据库的开发。之前在Splunk工作，主要参与数据采集相关的开发工作。

演讲题目：使用JIT技术实现高效的数据库表达式求值

演讲提纲：

1. 介绍数据库表达式求值的一般方法

· 什么是表达式求值问题

· 常见方法如向量化/JIT/树遍历等

· 不同的数据库的解法

2. JIT即时编译技术

· 什么是JIT即时编译技术

· JIT技术的优缺点

3. 使用Gandiva表达式编译器

· 介绍Apache Arrow

· 介绍Gandiva表达式编译器, LLVM及其工作

听众收益：

1. 如何对数据库表达式求值

2. JIT即时编译技术的基本概念以及为什么需要JIT

3. 如何使用Apache Arrow/Gandiva的JIT即时编译技术加速计算

WeOLAP：微信 OLAP 新场景优化实践

孙弘毅

微信大数据研发高级工程师

个人介绍：硕士毕业于南京大学计算机系，具有多年大数据和分布式系统研发经验，对 Spark、Flink、Kafka、Pulsar 等大数据组件和消息中间件有深入的理解，目前在微信 WeOLAP 团队参与以 Clickhouse 为基座的海量数据亚秒级分析系统研发。

演讲题目：WeOLAP：微信 OLAP 新场景优化实践

演讲提纲：

1. ClickHouse 在微信的新应用场景

2. 如何进行查询性能观测

3. 湖仓读取场景优化

4. 实验场景优化

5. 向量数据库应用 & embedding 检索优化

Bit-sliced-index：基于 Roaringbitmap 的人群 OLAP 分析、在线服务的 one more thing

黄海林

灵犀互娱技术专家

个人介绍：黄海林，灵犀互动数据服务 leader，Roaringbitmap Java 版 BSI 作者。

演讲题目：Bit-sliced-index：基于 Roaringbitmap 的人群 OLAP 分析、在线服务的 one more thing?

演讲提纲：

1. 灵犀互娱面向游戏用户的数据难题

2. 元数据驱动数据架构设计

听众收益：

1. 人群和指标的高效联动分析

2. 高性能人群服务如何设计

唐凯麟

灵犀互娱高级研发工程师

个人介绍：唐凯麟，计算机科学与技术硕士，专注于大数据系统和数据平台的技术研发工作，现在主要负责阿里巴巴-灵犀互娱数据平台开发。

演讲题目：Bit-sliced-index：基于 Roaringbitmap 的人群 OLAP 分析、在线服务的 one more thing?

演讲提纲：此次分享将介绍现代 DMP 平台中的数据存储与计算面临的特点与挑战，以及为灵犀互娱针对海量数据的建模与存储计算优化策略。具体包括：

1. 灵犀互娱业务数据应用现状及挑战

2. 基于 Roaring Bitmap 与 Bit-Index Slice 的数据存储、计算原理介绍

3. 案例分享

听众收益：

1. 海量数据建模、存储与计算解决方案

2. 如何构建高效的海量数据平台架构快速进行数据分析

ClickHouse 在 vivo 的应用实践

袁文兵

vivo 互联网大数据架构师

个人介绍：计算机科学与技术硕士，曾任职于腾讯，现在 vivo 负责大数据研发工作，OLAP 项目负责人，专注于大数据系统和 OLAP 数据库的技术研发工作，具有8年大数据从业经验。

演讲题目：ClickHouse 在 vivo 的应用实践

演讲提纲：

1. vivo OLAP 的发展历程与选型

2. ClickHouse 的稳定性实践

3. ClickHouse 查询优化实践

4. ClickHouse 实践案例

听众收益：

1. 了解 ClickHouse 常见的稳定性问题及解决方案

2. 了解 ClickHouse 的查询优化方面的实践技巧

3. ClickHouse 如何赋能业务，带来降本增效

货拉拉大数据下一代基础架构实践与思考

何洋

货拉拉大数据专家

个人介绍：何洋，本科毕业于中南大学，先后就职于唯品会、饿了么、拼多多，负责过万级规模大数据集群，目前就职于货拉拉，主要从事大数据安全、计算资源调度、大数据平台和 GPT 应用相关工作。

演讲题目：货拉拉大数据下一代基础架构实践与思考

演讲提纲：

1. 背景与挑战

2. 基础架构实践

3. 总结与思考

4. 未来展望

听众收益：

1. 面对资源波峰低谷，如何在成本和资源效率间平衡

2. 除了 x86 服务器，我们还有别的选择么

3. 面向云原生浪潮，大数据架构如何演进

知乎大数据跨机房实践

贾承昆

知乎数据平台负责人

个人介绍：贾承昆。曾就职于阿里云、猿辅导、知乎等公司。有多年数据架构方向的工作经验。负责知乎大数据的基础架构和数据平台相关的工作。

演讲题目：知乎大数据跨机房实践

演讲提纲：介绍知乎大数据跨机房方案，如何在多个机房之间迁移数据，调度计算作业并保障稳定性。

听众收益：

1. 如何设计并实现 Hadoop 跨机房方案

2. 如何在多集群之间进行快速的数据迁移

3. 如何在多集群架构下保障稳定性

OPPO下一代大数据AI一体架构实践

付庆午

OPPO 数据智能中心大数据架构师

个人介绍：目前在OPPO数据架构组负责架构演进研发，Spark 开源RSS项目Shuttle发起人，曾供职去哪儿网大数据，阿里云MC团队。

演讲题目：OPPO下一代大数据AI一体架构实践

演讲提纲：

技术架构：

1、云原生的计算架构：

云上极致弹性计算架构助力大幅降本

2、大数据AI一体化数据湖架构：

秒级实时、元数据管理、自动索引构建、非结构化数据管理

应用落地：

1、多数据源一键实时入湖，多维度数据秒级查询可见，代替部分实时场景对kafka依赖，流批一体，实现大幅降本增效

2、基于数据湖的实时特征平台建设，基于实时湖仓+Flink，实现流批一体特征工程数据开发，PB级特征近实时更新

3、大模型非结构化文本训练数据入湖，加速大语言模型训练

4、数据湖在混合云场景应用

听众收益：了解新一代大数据AI一体架构如何在公有云上降本增效，大数据和AI如何在数据层一体化，不仅了解数据湖本身的技术架构，同时将了解在实时湖仓、搜推算法、大模型训练、混合云上不同场景的应用落地经验。

vivo 超大数据规模下分布式消息中间件架构演进实践

罗明波

vivo 互联网大数据专家

个人介绍：曾先后就职于TCL、vivo等公司，拥有9年互联网领域和大数据领域实践经验，长期从事互联网高并发、高性能、海量数据接入、海量消息处理等领域的相关工作。对于互联网、物联网、大数据领域服务稳定性、架构升级、增效将本等场景有较为丰富的方案设计及落地经验。目前就职于vivo公司担任vivo互联网大数据专家，负责超大数据规模下分布式消息中间件的架构升级、可用性保障、增效降本及分布式消息中间件容器化等方面工作。

演讲题目：vivo 超大数据规模下分布式消息中间件架构演进实践

演讲提纲：

1. 十万亿级消息中间件架构演进实践

2. 超大数据规模下Pulsar核心架构优势

3. 超大数据规模下消息中间件高可用保障体系及可观测

4. 未来规划

听众收益：

1. 了解vivo 日均十万亿级的消息规模下分布式消息中间件平台在高可用性、增效降本等场景下的技术方案思考和相关难点问题的解决思路，以及下一代云原生分布式消息中间件Pulsar在超大数据规模下的架构优势

2. 了解vivo 超大数据规模下消息中间件高可用保障体系及可观测实践

3. 了解vivo 超大数据规模下消息中间件未来规划

混合云原生大数据底盘

曾昭正

顺丰科技大数据高级研发工程师

个人介绍：10年以上大数据底盘研发经验，2017年加入顺丰科技，负责dataPaaS相关工作，主要涉及大数据混合云弹性扩缩容、云原生实时数湖等业界创新型技术在顺丰的探索和落地。

演讲题目：混合云原生大数据底盘

演讲提纲：

1、背景与趋势

2、顺丰混合云原生数据架构升级

3、顺丰大数据架构应用案例

听众收益：

1. 多云融合的大数据基础设施如何做到低成本

2. Hadoop 与云原生架构如何做融合

3. 跨机房离线任务如何保障计算效率

零售行业永辉超市云原生数据中台的探索与实践

马吉辉

永辉超市大数据架构师

个人介绍：马吉辉，永辉超市大数据架构师，数据中台OLAP架构负责人，永辉CLICKHOUSE布道者，毕业于南京大学计算机系，2019年加入永辉云创数据智能产品研发部，从0到1构建永辉线上大数据计算体系，离线、准实时、实时数仓架构，2020年主导并参与了永辉数智化转型之路，构建永辉数据中台，数据中心"蓄水池"，高效赋能业务增长。多年大数据从业经验，对数据基础架构服务、数据资产化、数据应用具有深刻的洞见。目前专注于数据治理，自助取数分析-人人都是数据分析师的体系建设落地。基于永辉"极光"平台实现业务输出。

演讲题目：零售行业永辉超市云原生数据中台的探索与实践

演讲提纲：

1. 永辉数据中台的经路历程

2. 以数据赋能零售业务的探索与实践

3. 数据治理思维驱动数据中台稳定高效

4. 未来展望

听众收益：

1. 了解零售业数据中台私有云建设的探索与实践

2. 了解数据治理在数据中台中的思维体现

3. 了解数据如何赋能复杂的零售业务变化

4. 对零售业技术的未来的探索与实践

物化视图在 MaxCompute 中的探索与实践

雷春蔚

阿里云 MaxCompute SQL 引擎技术专家，Apache Calcite PMC

个人介绍：雷春蔚，Apache Calcite PMC，具有多年大数据从业经验，主攻 SQL 引擎性能优化，先后负责了阿里云 MaxCompute 物化视图、dynamic filter、索引等核心功能的设计和开发。

演讲题目：物化视图在 MaxCompute 中的探索与实践

演讲提纲：物化视图是将查询预先计算并存储的一张特殊的物理表，当执行相关查询时，可以复用预计算结果，提高查询性能，是降本增效的妙招；本次演讲将从物化视图创建、物化视图维护、物化视图应用和物化视图推荐及自动物化视图4个方面介绍物化视图在 MaxCompute 中的探索和实践。

火山引擎 ByteHouse 的云原生探索与实践

任强

火山引擎 ByteHouse 技术专家

个人介绍：任强，2020年7月加入火山引擎 ByteHouse 团队，一直从事实时导入相关研发工作，目前负责实时导入模块。

演讲题目：火山引擎 ByteHouse 的云原生探索与实践

演讲提纲：近年来，随着云基础设施的成熟和数仓技术的发展，云原生数仓凭借按量付费、按需弹性的特点越来越受到客户的青睐。字节跳动在云数仓领域有十多年技术经验积累，并基于开源 ClickHouse 推出的云原生数据仓库 ByteHouse。本次分享将从云数仓历史和前沿出发，介绍 ByteHouse 云数仓的整体架构和亮点，以及存算分离的关键设计与实践。主要包括以下内容：

1. 数仓架构演进历史

2. 云数仓演进中的技术难点和问题

3. ByteHouse 云数仓架构设计以及存算分离的关键技术

4. ByteHouse 存算分离的实践与优化

听众收益：

1. 了解云原生数仓的发展与核心价值

2. ByteHouse 云数仓的架构设计与技术亮点

3. 云原生数仓的挑战和展望

面向2026年的推荐算法前瞻

肖玄基

Shopee 内容电商算法负责人

个人介绍：毕业于中科院软件所，目前在Shopee负责电商直播为主的内容电商算法，曾在腾讯，阿里，百分点工作过。主要研发方向包括推荐，内容生态，用户增长，营销等。

演讲题目：面向2026年的推荐算法前瞻

演讲提纲：

• 常规的推荐系统范式已经逐渐走入瓶颈，原因是在当前固定化的问题描述下模型和系统几乎已经发展到极限。当前的主要范式是模型是召回+排序+重排，系统上是样本挖掘+特征工程+线上打分预估能力建设。一线大厂在上述领域已经把空间几乎挖掘殆尽。

• 同时可以看到，我们的用户仍然对当前推荐系统满意度并没有达到理想态。推荐系统是一个非常面向于用户满意的平台系统，而用户满意是一个永远有不同理解的问题,正如“一千个用户眼里有一千种好的推荐系统理解”。同时，我们的推荐系统效果和平台的最终价值之间仍然存在差距。

• 构建更好的推荐系统需要我们对重新定义“什么是好的推荐系统”。

• 这并不是学术界的“强行挖坑”或者“继续填坑”，而是不同层面上都在呼唤新的定义。

• 事实上，新的推荐系统已经零散的在学术界和工业界展现星星之火。

听众收益：

1）了解未来3年的推荐系统前沿问题，把握大局方向。

2）参与我们的推荐算法的github开源项目： OneRec。

OPPO 广告召回算法实践与探索

余文毅

OPPO 互联网广告召回算法负责人

个人介绍：余文毅，2020年加入 OPPO，现任互联网广告召回算法负责人。先后就职于腾讯、OPPO，长期深耕广告推荐算法领域。目前主要负责召回算法优化，也在重排算法、行业优化算法等领域有一定实践。

演讲题目：OPPO 广告召回算法实践与探索

演讲提纲：主要介绍 OPPO 互联网广告业务下，“面向最终目标的广告召回算法”的实践与探索经验，包括：

1. 召回模型架构选型的分析与实践

2. 召回离线评估标准的建设与迭代

3. “面向最终目标的广告召回算法”的业务优化实践与模型优化探索

听众收益：希望能通过我们的分享，给从业者们一些参考：

1. “面向最终目标的广告召回算法”的利与弊

2. 召回算法离线评估指标的探索经验

3. 召回算法的业务优化与模型探索经验

QQ音乐推荐排序算法实践

孙嘉琨

腾讯音乐推荐算法工程师

个人介绍：硕士毕业于荷兰莱顿大学计算机专业，毕业后加入腾讯音乐至今，负责QQ音乐、IOT等多端多业务推荐算法优化。

演讲题目：QQ音乐推荐排序算法实践

演讲提纲：

1. QQ音乐推荐整体架构

2. 精排算法设计

3. 跨域推荐相关算法详解及探索

4. 总结与展望

听众收益：了解QQ音乐推荐概况，熟悉多目标及多场景推荐的相关算法及应用实践。

强化学习在推荐系统中的实践探索与业界进展

张启华

虎牙直播推荐算法工程师

个人介绍：目前就职于虎牙，之前先后在百度和腾讯工作，一直从事推荐算法领域，尤其对重排/混排算法有较深的理解与创新。在业界首次提出把强化学习应用于多目标融合领域的方案，随后在腾讯多个产品有效果显著的落地应用，后续也有多家公司跟进应用，该成果整理成论文发表在数据挖掘领域国际顶级学术会议KDD2022上，引起较大反响，在这一领域开创了一个全新范式，大幅提升了效果天花板。

演讲题目：强化学习在推荐系统中的实践探索与业界进展

演讲提纲：

1. 推荐系统与强化学习

a. 强化学习概述，及其应用领域

b. 推荐系统的传统方法及当前挑战

c. 强化学习与推荐系统的结合点：交互性与长期满意度

（讲述结合的动机，推荐系统通过不断增加预测任务并拓展目标周期，以提升对用户的长期满意度，而强化学习的交互性及长期价值建模有助于推荐系统实现该目标）

2. 探索强化学习在推荐系统中的应用

a. 推荐问题的强化学习建模

b. 面临的核心挑战

i. 推荐系统的动态性与复杂性

ii. 延迟奖励与复杂的环境反馈

c. 常见的强化学习实践方案，优势及局限性

d. 离线强化学习的实践探索

i.OfflineRL的训练框架

ii.不同范式的OfflineRL模型算法

iii.离线评估方法

（以踩坑过程为线索，介绍建模方法，在探索过程中遇到的一些问题，分布偏移、外推误差，模型训练困难，线上效果不稳定等等。介绍一种成功案例的OfflineRL的流程框架）

3. 业界的新进展与进展

a. 近期研究成果，论文分享或成功案例

b. 新的算法与技术概述

c. 未来展望，一些可以尝试的方向畅想

听众收益：在此次演讲中，我们将尝试探索强化学习与推荐系统的结合点，并分享一些实践中的踩坑经验。听众可能会对这两者的结合有更多的了解，认识到实践中可能的挑战和考虑点。通过一些业界的研究进展，我们希望提供一些思考的方向，但这只是一个起点。期待与大家共同探讨，相互学习，一同前行。

领域模型生产指南

陈峰

滴普科技 Senior Research Fellow

个人介绍：滴普科技高级研究员，《ClickHouse性能之巅》作者。数据智能领域资深架构师，曾主导OPPO智能缺陷识别、威视智能瞳孔检测、百丽丽影等多个数据智能项目技术架构的设计工作，有丰富的大模型落地经验。目前着眼于大模型在不同领域上的工程化落地。

演讲题目：领域模型生产指南

演讲提纲：

1. 领域模型的难点

a. 领域模型和通用大模型的异同点

b. 领域模型的三大难点及其详细说明

2. 领域模型的训练方法论

a. 针对上诉难点的各种方法论

听众收益：

1. 了解领域模型与通用模型的不同

2. 了解领域模型存在的几大难点

3. 如何应对这三大难点的多种可行方法论

使用 OpenLLM 构建和部署大模型应用

明希

BentoML 高级软件工程师

个人介绍：BentoML 全栈工程师，Python 玩家，开源爱好者。负责 BentoML 项目的开发。著名 Python 包管理器 PDM 作者。

演讲题目：使用 OpenLLM 构建和部署大模型应用

演讲提纲：

一、大模型应用部署的挑战

二、使用OpenLLM 快速启动一个大模型的应用

a. 通过 OpenLLM 调用大语言模型

b. 通过OpenLLM启动一个HTTP server

c. 使用命令行进行模型推理

d. 使用Python Client与应用交互

e. OpenLLM 与 langchain的集成

f. 模型推理性能的优化

三、使用 BentoML 工具构建并部署大模型应用

a. BentoML 简介

b. 构建一个bento

c. 将Bento部署到bentocloud

听众收益：

1. 如何使用常见的LLM快速启动一个应用

2. LLM应用性能优化的方法

3. BentoML 框架的安装与使用方法

大语言模型优化：Fine-Tuning 技术与方法实践

黄月红

滴普科技语言模型研究员

个人介绍：滴普科技语言模型研究员，“CHAOS万有引力”公众号作者，发表过多篇国际会议和sci论文，五年深度模型开发经验。主要研究方向为大语言模型，机器视觉，有丰富的模型开发优化经验，同时在因果推断，推荐系统，知识图谱等领域也有一定兴趣和开发经验。

演讲题目：大语言模型优化：Fine-Tuning 技术与方法实践

演讲提纲：

1. Fine-Tuning 大语言模型的必要性分析

a. 什么样的情况下需要 fine-tuning 大语言模型

b. fine-tuning 大语言模型需要准备些什么

2. fine-tuning 算法介绍

a. 一般过程及原理

b. 模型量化

c. qlora

d. Neftune

e. …

3. 测试自己的大语言模型

a. 各种测试平台，工具，方法，标准介绍

b. 定义自己的测试指标和方式

听众收益：

1. 了解如何 fine-tuning 大语言模型

2. 了解 fine-tuning 的方法和策略

3. 了解 fine-tuning 大语言模型评估方法

大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索

刘焕勇

360 人工智能研究院算法专家、知识图谱方向负责人、360智脑项目组核心成员

个人介绍：360人工智能研究院算法专家、知识图谱方向负责人、360智脑项目组核心成员，“老刘说NLP”公众号作者，曾就职于中国科学院软件研究所。主要研究方向为大模型数据挖掘与自动化评估、领域知识/事件图谱的构建与落地应用，主持或参与研制全行业事理图谱、百科图谱、知识图谱平台、事件情报分析、右侧推荐、大模型研发等落地项目，申请发明专利十余项、论文数篇。近年来在OGB-Wikikg2、CCKS多模态实体对齐、可解释类案匹配等评测中获得多项冠亚军。致力于自然语言处理技术开源共享，在github开源项目60+，收获star数超2W+。

演讲题目：大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索

演讲提纲：幻觉问题是制约大模型在某容错性较低场景的拦路虎。而幻觉问题本身来源于多个方面，包括数据、训练方式以及解码策略等。本报告将围绕大模型幻觉的起因、如何评估、在真实落地场景下如何结合外部知识图谱进行缓解等几个方面进行介绍。

听众收益：

1. 什么是大模型幻觉，幻觉是好是坏？

2. 为什么会出现幻觉，又如何评价幻觉？

3. 幻觉在落地场景中如何用知识图谱加以缓解？外挂 or 受控生成 or 其他？

多模内容理解在百度商业广告中的探索实践

金志鹏

百度资深研发工程师

个人介绍：硕士毕业于中科院自动化研究所，2016年加入百度商业广告团队，先后从事凤巢点击率模型优化、商业多模内容理解等工作，目前在商业技术中台团队担任内容中台资深算法工程师，负责多模态理解与生成方向，相关工作多次发表于 SIGIR，CIKM，BigData 等国际会议。

演讲题目：多模内容理解在百度商业广告中的探索实践

演讲提纲：

1. 商业图文预训练大模型

2. 多模内容表征如何赋能商业系统，包括排序系统、召回系统

3. 多模内容理解与生成大一统

听众收益：

1. 如何训练一个百亿的图文大模型？

2. 多模态内容如何赋能商业系统？

3. 排序模型的 ID 记忆性问题如何解决？

教育领域大模型的技术和应用

苏喻

合肥综合性国家科学中心人工智能研究院副研究员

个人介绍：苏喻，工学博士，硕士生导师，合肥综合性国家科学中心人工智能研究院副研究员，合肥师范学院计算机学院副教授，专业负责人，中国计算机学会大数据专家委员会通讯委员，安徽省计算机学会青少年信息学教育专委会秘书长，研究方向为自然语言理解，数据挖掘与推荐系统。2011年7月-2022年2月就职于科大讯飞研究院，历任科大讯飞AI教育研究院副院长，AI研究院认知群教育条线负责人，学习机业务线业务总监，重点负责教育领域个性化学习业务，其研发的多项成果已经成功的应用到讯飞智学网、讯飞学习机等相关产品中，于2018年获得讯飞首届华夏创新奖，获2020年吴文俊人工智能科学技术奖科技进步一等奖。同时，先后参与多项安徽省、部级等层面的重大项目科研工作，如国家自然科学基金重点项目“基于多模态数据的学习者认知诊断理论与关键技术研究”、科技部重大专项“面向分类用户个性化需求的科技大数据精准服务技术”等。其间获得多项发明专利，并在AAAI、KDD、IJCAI等国际知名学术会议与期刊发表文章近50余篇。

演讲题目：教育领域大模型的技术和应用

演讲提纲：随着技术的不断演进，大语言模型，如GPT-4，及其相关技术已经深深影响了许多行业。尤其在教育领域，这些模型已经促进了许多前沿的应用与实践的出现。通过将大语言模型融入智慧教育，我们希望其能够解决传统方法所面临的问题。本次演讲将重点探讨如何利用大语言模型来应对智能教育所遭遇的技术问题，并分享我们团队的最新研究进展。此外，演讲的最后还将介绍我们在教育场景下结合上述技术所取得的应用成果。

1.简述大语言模型在通用教育下有哪些应用场景

2.阐述目前智慧教育在技术上所面临的问题 (有标签数据少、闭环周期长、需要融入领域知识)

3.介绍团队在教育领域大模型相关的技术

4.1基于大语言模型的知识构建

(1)人机合的知识图谱构建技术:通过与大语言模型的结合，实现人机协作的方式，可以更高效、准确地构建领域内的知识图谱；

(2)大模型的小知识学习技术:允许大模型专门针对某一领域或主题进行微学习，从而生成更加准确的领域相关内容；

4.2基于大语言模型的仿真强化试题推荐技术

(1)基于大语言模型的学生学习行为仿真技术:通过大模型分析学生的学习行为，模拟其学习路径和趋势，从而预测学生在进行某个学习和做题后的知识水平情况；

(2)基于大语言模型的强化试题推荐技术:结合强化学习和大语言模型仿真，系统可以根据学生的学习历程和反馈，动态推荐适合其学习水平和需求的试题，帮助学生更加高效地学习和巩固知识；

5.教育领域大模型相关的应用

(1)数字人AI录播课

(2) AI智慧编译器

听众收益：听众将从本次演讲中获得对大语言模型在教音领域的深入了解，探索其如何解决智慧教育的技术挑战，以及实际应用中的具体案例，为教育者和技术从业者提供有价值的启示和激发创新思维的灵感。

通义星尘个性化大模型相关技术与应用

严明博士

阿里巴巴通义实验室文档智能技术负责人

通义实验室文档智能技术负责人和 GUI 智能体 Mobile-Agent 负责人，主要研究方向多模态智能体、长文本理解和推理、文档智能解析和多模态文档创作等，负责打造文档智能模型产品 QwenLong、Qwen-Doc，以及文档智能解析产品 Document Mind，相关能力应用于千问APP、通义智文以及内外部多个产品线，并主导 Mobile-Agent 开源技术体系影响力建设（8k+ Stars）和创新产品孵化，在 ACL、ICML、ICLR、NeuIPS、CVPR 等国际会议期刊发表100多篇相关学术论文。

蚂蚁新一代数字智能化治理平台 AutoFinOps 实践与探索

林天权

蚂蚁集团高级数据技术专家

个人介绍：林天权（花名：画龙），现任蚂蚁集团高级数据技术专家，有10多年大数据研发、架构升级和数据治理经验，14年开始加入蚂蚁，深度参与蚂蚁大数据的发展和升级演进，曾作为实时数据负责人主导蚂蚁双十一媒体实时大屏、蚂蚁全域实时采集链路和蚂蚁实时数据研发平台研发，以及PB级adhoc查询加速服务和大安全一键数据服务化平台研发与升级，现任蚂蚁安全大数据技术团队数据架构及治理负责人，推进技术创新，打造EB级AutoFinOps核心能力，升级蚂蚁新一代数据架构，用数据创造价值。

演讲题目：蚂蚁新一代数字智能化治理平台 AutoFinOps 实践与探索

演讲提纲：科技驱动一直是蚂蚁的核心发展理念，也是蚂蚁安身立命之本。蚂蚁过去的发展，源于能够始终抓住技术变革机遇，用技术创造价值。蚂蚁集团在面对EB级数据规模、错综复杂的业务以及数字时代新型安全风险挑战，数据治理除了传统的运动式治理、元数据驱动治理、一站式治理平台、自上而下的治理规范制度约束等解决方案外，也在不断尝试技术创新和架构升级等手段破局和提效，提供更加高效、便捷、丝滑的自动化、智能化解决方案，本次分享带你深入了解蚂蚁如何通过治理数字智能化快速实现“无感降本”，特别是智能归因、AutoFinOps、错峰计算等技术应用和实践，期待你的聆听，也期待与你一起交流。具体内容包括：

1. 数据治理的困难与挑战

2. 数据治理的顶层设计和架构

3. 数据治理自动化和智能化的最佳实践

4. 思考总结与未来展望

听众收益：
1. 了解蚂蚁数据治理的设计思路

2. 深度解读蚂蚁“无感降本”技术如何高效实现

3. 探讨数据治理领域未来趋势

DataOps 加大模型促进数据工程创新

杨明皓

数造科技高级大数据技术专家

个人介绍：英国谢菲尔德大学计算机硕士，海南数造科技高级技术专家。10年+金融行业实践经验，10年+大数据、知识图谱与自然语言研发经验。

演讲题目：DataOps 加大模型促进数据工程创新

演讲提纲：在数字化时代，数据管理和分析至关重要，而传统数据管理和分析存在诸多的挑战，在此背景下通过分析 DataOps 大模型的特点，提出 DataOps 的基础上结合大模型能力，实现数据工程的敏捷和智能化，促进数据分析的快速交付和数据民主。本次分享的主要内容包括：

1. 传统数据管理面临的挑战

2. DataOps 与大模型结合激活数据工程潜力

3. 数造科技 DataOps 与大模型的产品落地实践

4. 未来展望

听众收益：

1. DataOps 的工作流程

2. 大模型 Text2SQL 的能力

3. DataOps + 大模型如何进一步提效数据工程

茶歇

快手数据成本白盒化治理实践

冯赞锋

快手大数据架构师

个人介绍：先后就职于百度、创新工厂-豌豆荚、快手三家公司，主要擅长大数据中台构建、数据治理，在搜索、爬虫、后端服务开发等方向也有一定积累，目前在快手主要负责数据治理架构设计和开发工作。

演讲题目：快手数据成本白盒化治理实践

演讲提纲：

1.1 背景介绍

· 数据治理介绍：快手数据治理整体介绍

· 本次分享核心：通过引擎与数仓白盒化拆解，提升治理深度，实现降本增效

1.2 收益评估方法

· 压缩率

· 存储数据量

· 资源消耗（CPU核*天）

· 作业运行时长

· 作业失败率

1.3 引擎白盒化

· HBO

· JVM升级

· 压缩算法替换

· 计算过程拆解

1.4 数仓白盒化

· 基于 Similar SubExpression 的公共模型构建和优化

· 数仓自动化治理实践

1.5 个人思考

· 严谨：事前收益测算 -> 事中灰逐步度验证，解决异常CASE -> 事后整体效果评估

· 深入：对引擎、工具、数仓均有深入理解

· 行动：躬身入局，模糊各个团队的边界

1.6 未来规划

· 压缩效率持续提升

· 实时计算Flink白盒化

· 数仓架构优化

听众收益：
1、深入到大数据存储计算引擎和数据仓库，对其进行白盒化拆解，在治理思路、治理经验等方面有不少可借鉴之处

2、讲述快手实践，如何成功降低千万级存储和计算成本

阿里云 DataWorks 湖仓融合数据治理与大模型应用探索

田奇铣

阿里云高级产品专家、阿里云DataWorks产品负责人

个人介绍：阿里云DataWorks产品负责人，打造全链路数据开发治理平台支撑阿里巴巴集团与阿里云上众多客户的数字化转型。

演讲题目：阿里云DataWorks：新一代“Data+AI”数据开发与数据治理平台的产品演进

货运双边市场实验的挑战和实践

王世伟

货拉拉增长数据科学负责人

个人介绍：2014年天津大学硕士毕业后加入腾讯，7年腾讯手游风控经验，先后主导过QQ飞车（休闲类）、英雄联盟（moba类）和和平精英（fps类）等20款+手游的安全对抗工作；2021年加入货拉拉，负责增长数据科学的日常管理，主要负责货运AB实验，GPT大模型、画像标签等技术能力建设的工作。

演讲题目：货运双边市场实验的挑战和实践

演讲提纲：

1. 初识货运双边市场

2. 货运场景实验问题

3. 货运实验技术方案

4. 货运场景实验案例

听众收益：

1. 同城货运如何交易的

2. 如何缓解运力竞争带来的实验干扰

3. 降本增效下如何衡量补贴策略效果

因果推断与医学研究

胡金波

重庆医科大学附属第一医院内分泌科副研究员，主治医师

个人介绍：胡金波，医学博士，主治医师、副研究员、博士生导师，获得重庆市杰出青年基金、重庆市高校巴渝学者。擅长内分泌性高血压、糖尿病、甲亢等内分泌疾病的诊治，主要研究领域为肾上腺疾病。曾留学美国哈佛大学。担任美国内分泌协会（ENDO）会员、重庆医师协会内分泌代谢科医师分会委员。主持国家级课题2项、省部级课题4项，获得省部级科研奖励2项。执笔撰写《中国肾上腺意外瘤多学科管理专家共识》，参编第2版人民卫生出版社《“5+3”医学整合课程教材》。在《Ann Intern Med》、《J Am Coll Cardiol》、《Metabolism》等杂志发表论文35篇（中科院1区论文12篇）。

演讲题目：因果推断与医学研究

演讲提纲：随机实验和因果分析在医药领域有悠久的历史，并得到广泛的认可。本次分享将结合一个高血压诊疗的应用案例，从以下两方面介绍：

1）医药临床实验里的实验设计

2）医药学界对因果推断和实验设计的要求、解读和共识

听众收益：

1、如何从诊疗场景出发挑选合适的设计和推断方法

2、了解因果推断和实验设计在垂直领域的应用

3、医药学作为比互联网更早、更严谨使用随机实验和因果推断的垂直领域，给互联网公司带来的思考和启发

茶歇

如何保证实验外部有效性（External Validity）

韩士超

腾讯微信实验平台数据科学家

个人介绍：本硕毕业于加州大学伯克利分校统计系和计算机系，现在腾讯微信实验平台负责实验设计和因果推断研究，专注于双边市场的问题和其他各类方法的应用与落地。

演讲题目：如何保证实验外部有效性（External Validity）

演讲提纲：随着AB实验日益增加的重要性，我们越来越关注策略在小流量实验期间观测到的因果统计量能否在推全后保持一致。本次演讲将会从如下方面介绍微信实验平台在外部一致性问题上的探索和应用：

1. 问题背景-可能会造成实验期间观测到的效果和推全后不一致的原因

2. 实验设计侧的解决方法

3. 实验分析侧的解决方法

听众收益：

1. 了解导致实验期间观测到的效果和推全后不一致的方法框架

2. 了解双边市场实验设计和有溢出和抢夺效应时的实验设计及分析方法

3 . 了解其他消除内外部不一致的方法及应用场景

A/B测试中的实时监测策略与加速方法

詹若涵

香港科技大学助理教授

个人介绍：詹若涵是香港科技大学工业工程与决策分析系助理教授。她的研究开发了使用因果推理、统计和机器学习等工具来创新数据驱动决策的方法，尤其对平台运营和经济学问题感兴趣。此前，她获得了北京大学数学学士学位、斯坦福大学统计学硕士学位和计算与应用数学博士学位。

演讲题目：A/B测试中的实时监测策略与加速方法

演讲提纲：

1. 在A/B实验中进行实时监控时，为什么传统的固定样本量测试方法不能有效控制第一类错误（Type-I error）？

2. 我们推出了一种新的置信区间构建方法，适合于有重复观测的用户。此方法可以有效地在实时监控中控制第一类错误（Type-I error）。

3. 如何确保实时监控实验的效能（power）？

4. 如何基于实时观测来加速实验进程？

听众收益：

1. 如何在实时监测A/B实验中有效控制第一类错误？

2. 如何提高A/B实验的统计效能？

3. 如何利用实时监测来加速A/B实验进程？

知乎实验平台工程实践

杨昆

知乎实验平台技术负责人

个人介绍：知乎实验平台技术负责人，多年微服务，云平台和大数据相关经验，亲历负责了知乎多代实验平台的产品迭代过程。

演讲题目：知乎实验平台工程实践

演讲提纲：介绍知乎实验平台的架构体系演进，如何从 0 到 1 搭建实验平台，从不科学到科学置信的发展过程。

1. 知乎实验平台的发展历程

2. 踩过的坑和经验沉淀

3. 科学实验平台的架构设计

4. 未来展望

听众收益：

1. 实验平台分流模型的架构和设计

2. 实验分析链路的构建

3. 在实验的过程中哪些坑可以避免少走一些弯路

生成式AI在淘宝内容的研究与应用

俞一鹏

淘天集团高级算法专家

个人介绍：俞一鹏，浙江大学计算机专业博士毕业，博士期间在新加坡国立大学进行联合培养。曾在IBM中国研究院担任研究科学家，在腾讯担任高级研究员。工作期间主要研究方向为自然语言处理和多模态，涉及内容创作、内容理解和内容推荐，也负责过“游戏内的自然语言交互”的AI项目。在IJCAI、ACM MM和Ubicomp等国际A类顶会上发表过多篇一作论文，有十几项已授权的中国和美国专利。

演讲题目：生成式AI在淘宝内容的研究与应用

演讲提纲：演讲主要介绍AIGC技术在淘宝内容化业务中的算法研发和业务应用。具体包括：

1.UGC互动创新玩法

2.视频剪辑&生成技术

3.多模态大语言模型的落地挑战

听众收益：

1.AIGC技术在UGC互动的创新玩法尝试

2.视频剪辑&生成技术如何赋能商家和用户

3.多模态大语言模型的快速迭代和效果评估

多模态预训练模型在OPPO端云场景的落地实践

陈宸

OPPO 研究院高级算法工程师

个人介绍：陈宸，本科毕业于上海交通大学，博士毕业于香港科技大学。主要研究方向包括视频编解码、图像处理、持续学习/鲁邦学习等机器学习基础问题、计算机视觉在细粒度识别上的应用、多模态预训练在AIGC方向的应用等。曾任腾讯高级研究员，负责腾讯全媒体内容安全识别体系的搭建。现任OPPO研究院高级算法工程师，负责多模态预训练在跨模态检索、理解和生成的端云场景应用研究。在大模型预训练、端侧轻量化以及下游应用都有长期业务实践经验。

演讲题目：多模态预训练模型在OPPO端云场景的落地实践

演讲提纲：主要围绕图文多模态预训练模型在检索、理解、生成等各个方向的云端两侧的技术优化和落地场景介绍。如何在低资源的情况下用最少的算力优化多模态大模型已经成功落地到移动终端。

1. 图文检索云端两侧优化思路

2. 文图生成大模型继续预训练优化思路

3. 文图生成下游垂域优化思路（个性化生成、垂域微调、文字渲染等）

4. 文图生成大模型端侧轻量化落地介绍

听众收益：

1. 了解大模型在低资源下持续优化的算法实践经验；

2. 了解大模型在移动终端的轻量化落地优化链路；

3. 了解图文预训练模型在理解和生成方向的业务落地场景和实践经验。

茶歇

大模型从训练到产品落地分享

付凡

vivo 人工智能部门算法总监

个人介绍：毕业于中国地质大学（武汉）信息技术相关专业，超10年算法经验。2017年加入vivo，从事NLP算法相关工作，期间参与Jovi语音助手、电话秘书、手语翻译官等算法研发，从0到1搭建千万日活产品。目前在vivo从事大模型算法开发及产品落地相关工作。

演讲题目：大模型从训练到产品落地分享

演讲提纲：

1. 大模型演进 & 技术架构；

2. vivo 在大模型训练分享；

3. vivo 在大模型产品落地技术；

4. vivo 大模型成果展示；

听众收益：

1. 预训练数据如果构建及预处理方案？

2. SFT 如何提高模型效果？

3. 大模型如何适配到产品应用？

AIGC在游戏内容创作领域的应用

冯可

腾讯公共数据平台部内容智能应用组/AI组副组长

个人介绍：上海交通大学、佐治亚理工学院双硕士。毕业后就职于腾讯，先后参与和负责QQ旋风、QQ公众号、腾讯看点、QQ浏览器、游戏内容中台相关数据和AI建设工作。

演讲题目：AIGC在游戏内容创作领域的应用

演讲提纲：

1.行业背景

游戏内容业务背景

研究现状与挑战

游戏智能创作效果

2.文本生成与游戏内容创作

文本生成相关技术

在实际场景的应用效果

3.图片生成与游戏内容创作

图片生成相关技术

在实际场景的应用效果

4.视频生成与游戏内容创作

视频生成相关技术

在实际场景的应用效果

5.未来的机遇与挑战

听众收益：

1、了解游戏内容业务背景，以便更好地把握市场趋势和发展方向

2、了解游戏智能创作的研究现状与挑战

3、掌握文本生成、图片生成和视频生成等相关技术在游戏内容创作中的应用，为实际业务提供参考

模型赋能下的数据安全合规管理

张森森

平安科技数据管理部技术平台组负责人

电子科技大学硕士毕业，曾服务于中通服，TeraData 等知名公司。现就职于平安科技数据管理部门，任技术平台组负责人（高级经理），曾负责引领集团数据中台的规划、建设，现负责集团数据技术管理运营工作以及集团数据管理相关平台的建设。

基于需求驱动的数据治理场景化实践

左银康

国信证券数据治理负责人

个人介绍：本科毕业于华中科技大学，先后在大型股份制商业银行、四大央企和国信证券从事数据治理工作。在商业银行总行开展数据治理，推动全行的数据标准制定、客户数据质量检核、元数据的管理和平台工具建设，在四大央企之一开展集团主数据建设，进行集团组织、员工、物料主数据的规划、实施和推广，目前在国信证券开展数据治理工作，负责公司数据治理组织、制度、流程、工具的规划、设计和实施落地。

演讲题目：基于需求驱动的数据治理场景化实践

演讲提纲：在大数据时代，数据治理已经成为了企业数字化转型的必经之路。然而传统的数据治理和数据资产管理工作往往偏向中后台，如何将数据资产管理与业务、开发结合，将数据治理由管控走向服务，更好地体现数据资产的成果和价值，是目前行业数据治理共同面临的痛点和挑战。为此，本次分享从需求管理的思路出发，面向监管报送、资产管理、经营分析等实际的业务场景以及模型开发、测试和生产环境一致性保障等开发场景，剖析痛点和需求，设计方案，实现数据治理的场景化落地。

听众收益：

1. 数据治理缺乏业务配合，如何驱动业务和开发的积极性？

2. 数据治理流于形式，如何嵌入日常的研发节点？

3. 数据治理涉及领域众多，如何融合打通？

茶歇

数字化转型下的大数据平台治理

许璐

平安产险数据智能大数据工程师

个人介绍：15年加入平安，目前负责平安产险大数据基础平台研发管理优化等工作。

演讲题目：数字化转型下的大数据平台治理

京东物流一站式敏捷BI产品规划与落地实践

焦文健

京东大数据产品总监

个人介绍：京东大数据产品总监，中国人民大学MBA，十年以上大数据从业经验，具有数据中台化、数据业务化、数据智能化的落地实践经验。

演讲题目：京东物流一站式敏捷BI产品规划与落地实践

演讲提纲：

- 京东物流业务数据应用现状及挑战。

- 一站式敏捷BI产品的规划与迭代升级路径。

- 业务应用实践案例。

听众收益：

- 理解敏捷BI产品规划和设计要点

- 学习如何提升BI类数据产品的性能和用户体验

- 学习BI产品助力业务自助式实现数据分析的实践路径

线下营销的数智化应用分享

董沅

阿里巴巴瓴羊数字营销产品经理

个人介绍：主攻大数据AI方向，深耕行业应用产品多年，现负责阿里巴巴线下营销产品设计研发。

演讲题目：线下营销的数智化应用分享

演讲提纲：
1、线下营销盲点分析
2、利用数智能力实现线下营销人群的精准定位、精准触达、效果评估、资产二次运营的实践方法论分享
3、案例分享

听众收益：
1、如何实现线下精准营销？
2、如何评估户外品牌广告的效果？
3、如何沉淀户外营销的资产？

茶歇

电商与内容型业务用增数据的基建异同

熊瑾

bilibili 数据产品经理

个人介绍：曾负责网易数帆的数据开发平台、阿里数据中台的用增/私域/集团标签等数据项目。目前在bilibili负责数据产品。

演讲题目：电商与内容型业务用增数据的基建异同

演讲提纲：在不同的业务类型、组织形态、发展阶段等要素下，用增数据如何建设好。

听众收益：用增数据建设在诸多不同要素下的数据实践差异：
1. 业务类型：电商业务v.s.内容社区业务
2. 组织形态：自上而下型v.s.自下而上型
3. 发展阶段：成熟期v.s.生长期

参会须知

赞助商

活动门票

活动筹备中

售票推广中

活动结束

活动筹备中

售票推广中

活动结束

活动筹备中

售票推广中

活动结束

选择票

门票名称

单价(￥)

截止时间

数量

普通票（单人票 · 早鸟 · 不含餐）

￥5,000

2023-11-25 17:20

已售罄

普通票（4人团 · 早鸟 · 不含餐）

￥4,000

2023-11-25 17:20

已售罄

标准票（4人团 · 早鸟 · 含餐）

￥4,500

2023-11-25 17:20

已售罄

讲师（含餐）

免费

2023-11-25 17:20

已售罄

主办方

免费

2023-11-25 17:20

已售罄

退票说明：不支持退票

优惠或邀请码

使用优惠或邀请码

优惠或邀请码

确定取消

票价

￥ 0

活动已结束

活动主办方

活动由 DataFun 主办

DataFun成立于2017年，是专注于数据智能技术与应用的垂直开发者社区，拥有国内最权威的数据智能专家库和最精准的开发者受众群体。并且不断的以优质的会议与专业内容，普及新技术和新应用，不断吸引更多的数据智能技术企业和应用企业关注。

联系我们

往届回顾