使用微信扫一扫分享到朋友圈
使用微信扫一扫进入小程序分享活动
DataFunCon是DataFun旗下的综合性数据智能线下大会,探索大数据和人工智能的前沿实践和创新成果。
数据智能在总体上正走向基础设施化。
大数据在追求极致计算和分析性能的同时,也在不断降低架构和组织复杂性,作为越来越成熟的基础设施支撑着人工智能应用。
人工智能在模型架构、学习范式上不断推陈出新,模型预测的精确性逐年增进。随着预训练大模型不断展现出一统AI的潜力,AI模型以及AI工程在未来也有望迈入下一个阶段,成为数据智能产业的基础设施,推动所有行业走向智能化。
大数据和人工智能作为新基建的核心力量,也将走向新的征程。
个人介绍:邓亚峰,毕业于清华大学,二十年人工智能算法及产品研发经验,现任碳硅智慧创始人兼CEO。他曾任360集团副总裁、人工智能研究院院长兼搜索事业部总经理,科创版第一家人工智能上市公司格灵深瞳CTO,北京人工智能产业联盟副理事长等职务,曾获2021年中国人工智能年度十大风云人物称号、教育部技术发明奖二等奖。他带领团队在AIDD、计算机视觉、多模态大模型、机器人、智能搜索等领域做出过创新成果或先进产品,多次在国际国内主流人工智能评测中获得过第一名,累计申请发明专利140余项(已授权98项),发表论文50+篇。
演讲题目:基于生成式AI和预训练大模型打造分子设计平台
演讲提纲:介绍2021年后生命科学领域结构预测、生成式AI和预训练模型方面的最新技术进展,结合碳硅智慧实践,简介基于生成式AI和预训练模型在对接、成药性预测、分子生成优化等方面的领域前沿技术,以及基于这些技术打造的一站式数据驱动创新药研发平台,以及平台在实际场景中的验证情况。
听众收益:
1,了解生命科学前沿AI技术;
2,了解AIDD最前沿的工具平台的发展现状和未来趋势;
3,了解基于AIDD平台进行药物设计的最佳实践;
个人介绍:谢德军,MaxCompute SQL引擎技术负责人,深耕离线大数据SQL引擎领域14年。带领团队连续多年保持大数据领域权威Benchmark TPCx-BB世界第一,并且每年性能提升40%以上。通过持续对线上性能瓶颈做针对性的优化,MaxCompute SQL引擎的Adaptive能力做到了行业领先,也将MaxCompute Serverless能力提升到了一个新的台阶。
演讲题目:MaxCompute Serverless 架构演进
演讲提纲:
MaxCompute作为阿里云大数据核心自研产品,从第一天开始架构就完全面向云的特点来设计,是一个生在云上长在云上的产品。经过10多年的发展,MaxCompute相对于其他上云的产品在云原生、尤其是云原生的新范式Serverless方面有哪些特点那?本次分享会回顾MaxCompute的架构演进,介绍Serverless产品设计及背后的技术支撑,尤其是核心SQL引擎如何面向大数据场景独特挑战等。
听众收益:
1. 云原生大数据平台 MaxCompute 架构演进
2. Serverless 产品设计及背后的技术支撑
3. 自研 SQL 引擎如何面向大数据场景独特挑战
个人介绍:赵中州,阿里巴巴达摩院高级算法专家,哈工大本硕、帕维亚大学计算机硕士。十余年人机交互领域经验,阿里小蜜家族核心初创成员。目前负责达摩院数字人互动算法,带领团队先后打造了业界首个超过真人转化的电商虚拟主播、首个支持识别与合成双向交互的手语数字人等产品,目前关注数字人多模态交互、情感计算、认知推理等技术领域,以技术创新推动体验升级和业务规模化发展。
演讲题目:从Avatar到AI Being, 数字人类人互动的演进之路
演讲提纲:
数字人随着技术的持续创新与应用场景的丰富,逐渐从形象化身(Avatar)进化为具备智能与类人交互能力的数智人(AI Being),这背后需要解决实时交互、情感计算、人格模拟、个性表达等多种挑战,本次分享将围绕这些挑战带来相关的技术探索与实践,并展望在LLM加持下的数字人能力发展趋势。
内容大纲:
1、数字人技术发展、应用及挑战速览
2、实时双工交互,打破数字人互动的延迟屏障
3、情感与认知计算,构建数字人的类人大脑
4、统一人格表示,驱动数字人多模个性化表达
5、LLM加持下的数字人AGI之路
听众收益:
1.了解数字人发展现状及应用
2.了解全双工交互的技术原理及实践
3.了解情感与人格计算的技术原理及实践
4.了解LLM在数字人上的技术融合及演进趋势
个人介绍:本硕就读于北京理工大学,先后任职于网易、快手、腾讯音乐,目前主要负责全民K歌的推荐业务,致力于融合短视频消费与社交关系链的融合推荐。
演讲题目:社交推荐在全民K歌的实践
演讲提纲:
本presentation聚焦于解构社交推荐方法论,及在全民K歌的落地实践。
1. 信息流推荐和社交推荐的异同
2. 社交推荐通路构建
3. 全民K歌的社交推荐实践
听众收益:
1. 如何去理解社交推荐,和抖/快的信息流推荐有何区别?
2. 如何去构建一个面向社交互动的推荐逻辑?
3. 构建社交推荐的实践经验
个人介绍:2015年加入字节,主要负责字节内容流建设等,后续转入数据工程方向,负责数据服务,指标管理,数据治理等方向的建设。
演讲题目:字节跳动指标管理实践
演讲提纲:
围绕着指标平台在字节跳动各个业务线的实践进行交流,分享规范版指标管理在抖音电商等复杂场景落地与实践。探讨指标平台如何帮助各业务线建立统一的指标体系,全局降本提效,促进数据业务知识的传播,释放数据价值。
听众收益:
1. 规范版指标管理的在业务线实践
2. 指标管理如何全局降本增效的
3. 探讨指标平台如何快速满足业务消费诉求
个人介绍:2015年同济大学硕士毕业,8年大数据从业经历。先后在百度、vivo、腾讯负责数据研发和大数据平台建设,具备海量数据采集、存储、计算全链路平台化建设经验。目前在腾讯PCG大数据平台部负责指标中台建设。
演讲题目:tMetric-腾讯欧拉指标中台实践
演讲提纲:
伴随业务的高速发展,业务指标体系在快速迭代的过程中经常面临指标数据对不上、同名不同义、同义不同名等问题。 指标中台tMetric基于Headless BI理念,为业务提供标准化指标生产、统一服务等能力,实现指标的一处定义多处使用。
本次分享的主要内容包括:
1. 现状与问题分析
2. 设计思路及目标
3. 指标元数据管理
4. 统一查询服务
5. 业务效果
听众收益:
1. 如何标准化定义指标,解决指标同名不同义,同义不同名的问题
2. 如何做到指标设计即生产
3. 如何实现一处定义多处使用
个人介绍:10多年大数据相关经验。主要从事大数据架构开发调优,目前从事数据湖落地事宜。
演讲题目:纵腾湖仓全链路落地实践
演讲提纲:
1. 总体架构
2. 入湖方案选型
3. 实时入湖优化
4. 数据湖上的查询
听众收益:
1. 如何选择合适入湖方案
2. 如何优化实时入湖
3. 数据湖上的查询方案
演讲题目:字节跳动指标管理实践
演讲提纲:
围绕着指标平台在字节跳动各个业务线的实践进行交流,分享规范版指标管理在抖音电商等复杂场景落地与实践。探讨指标平台如何帮助各业务线建立统一的指标体系,全局降本提效,促进数据业务知识的传播,释放数据价值。
听众收益:
1. 规范版指标管理的在业务线实践
2. 指标管理如何全局降本增效的
3. 探讨指标平台如何快速满足业务消费诉求
个人介绍:硕士毕业于中科院计算所,后就职于阿里巴巴,负责集团超大规模分布式模型训练平台的研发工作,支撑了阿里妈妈广告、手机淘宝推荐、蚂蚁芝麻信用分等多个核心业务线的算法模型落地。2018年加入汇量科技,担任平台架构师,负责全公司大数据、AI平台的架构研发工作。现任北京数元灵科技有限公司CTO,推进国产湖仓数据智能平台的研发和落地应用。
演讲题目:国产开源湖仓框架 LakeSoul 的设计理念和落地应用
演讲提纲:
1. LakeSoul 开源框架的设计理念和技术原理解读
2. LakeSoul 的核心优势
3. LakeSoul 在实时数仓、实时机器学习等场景的应用
4. LakeSoul 进入 Linux 基金会后的开源社区进展和规划
听众收益:
1. 当前湖仓一体架构还存在哪些问题,LakeSoul 是如何解决的?
2. LakeSoul 湖仓框架有哪些独特的设计理念?
3. LakeSoul 是怎样支持实时数仓、实时机器学习等应用场景?
个人介绍:研究生毕业于北京邮电大学,毕业后就一直在百度商业方向工作。在凤巢做了两年半的搜索广告,之后在信息流场景上做了两年半的推荐广告,现在主要负责百度电商广告推荐策略。
演讲题目:超大图模型在推荐广告系统中的应用
演讲提纲:
1. 超大图模型背景
2. 超大图模型在百度电商行业的研发进展
2.1 超大图的训练
2.2 召回应用策略
2.3 排序应用策略
3. Q&A
听众收益:
1. 超大图模型的意义和优势
2. 多类型和多场景的图训练方法
3. 图模型的场景应用
个人介绍:毕业后一直从事数据领域相关工作,从刚开始电信行业的传统数仓,到后面互联网行业的大数据平台,12年领域内从业经验。18年初加入阿里巴巴的口碑业务,现在在本地生活数据智能中心,负责本地生活的数据治理工作,包括数据资产管理、计算成本和运维。
演讲题目:阿里本地生活数据资产规范化建设实践
演讲提纲:
主要分享阿里巴巴本地生活数据智能中心在推进本地生活资产规范化建设过程中的一些经验总结。
内容主要分为3部分:
1. 资产规范化建设背景:介绍数据资产规范化建设的相关背景、挑战和目标。2. 规范化建设实践:介绍资产生产和管理架构、资产评估体系、资产运营方案,以及达成的效果等内容。
2. 未来规划:介绍我们对于资产规范化建设的一些总结思考,展望未来的演进方向,并在此基础上所做的后续规划。
听众收益:
1. 数仓规范如何落地与保障?
2. 资产质量如何评估?
3. 如何帮助数据消费者提升找数用数体验?
个人介绍:代文,小米AI实验室NLP组智能问答业务负责人,2015年博士毕业于中科院自动化所。目前负责小爱同学产品的智能问答系统研发,研究方向包括图谱问答、检索问答、意图理解等,具有丰富的NLP工作经验。
演讲题目:信息抽取和图谱问答技术概览
演讲提纲:
1. 介绍信息抽取相关技术流派
2. 介绍图谱问答主要算法模型及应用
3. 介绍智能问答系统及产品
听众收益:
1. 信息抽取方法有哪些,各自优劣如何?
2. 前沿图谱算法有哪些,在产品中如何应用?
个人介绍:网易伏羲虚拟人首席专家, 长期专注于虚拟人研究和应用工作。工作成果应用于网易在线游戏,在线教育产品,多地展厅和文旅景点数字化改造项目;发表学术论文50余篇(包括CCF A类顶级会议论文及期刊30余篇);连续三届获得图像视觉顶会(ICCV2021, CVPR2022-2023)人脸表情感知国际挑战赛(ABAW)双赛道冠军;首创135种表情划分标准。
演讲题目:语音驱动表情合成技术前沿进展
演讲提纲:随着人工智能技术的发展,虚拟人驱动技术已经成为学术界和产业界高度关注的领域,近年来也取得了快速进展。本次交流聚焦于语音生成表情技术,即利用说话语音作为输入生成说话人的面部视频,包括2D像素级视频合成和3D表情动画合成,涉及口型合成、眉眼合成和头部姿态运动等方面。该课题的意义在于基于深度学习技术自动合成视频内容,无需依赖于动捕设备捕捉面部动画和视频录制设备。
本次交流将尝试阐明以下几个问题:
1. 为什么听觉信号能够传达细腻的视觉表情?
2. 当前学术界和产业界在语音生成表情技术方面都取得了哪些进展和异同点?
3. 当前前沿技术的研究热点和难点。
听众收益:
1. 了解当前语音生成表情技术的前沿研究和应用现状;
2. 了解不同算法和技术的优缺点,以及在实际应用中的适用范围和局限性。
个人介绍:12年大数据领域从业经验,熟悉DAMA数据管理及一定的实战经验,并具有CDGA认证证书,有丰富的大数据基础技术、大数据平台、数仓架构、数据研发平台建设经验,目前担任中国平安人寿数据管理团队技术组分组经理,负责大数据技术架构及DataOPS平台研发工作。
演讲题目:中国平安人寿北斗 DataOps 平台最佳实践
演讲提纲:
中国平安人寿通过研发一体化北斗 DataOps 平台(包含联邦式数据治理体系、数据研发管理体系、“设计即开发”DataOps工具三部分)解决方法论缺失 、烟囱式数据建设、缺乏工具三大数据建设难题,为保险企业提供一套体系化、可落地、成本可控的数据建设方案。
主要内容包括:
1. 北斗 DataOps 平台建设总体目标
2. 数据治理建设
3. 数据研发管理(角色、规范、标准、流程)
4. 平台工具体系建设
听众收益:
1. 如何结合 DAMA 与企业的实际制定数据研发流程规范
2. 落地的思路与难点是什么3. 平台工具应该具备什么能力
个人介绍:博士毕业于新加坡国立大学概率与应用统计学院。目前就职于腾讯,在微信实验平台负责假设检验,因果推断,AB实验等方面的研究。研究兴趣包括网络效应,贝叶斯推断,分位数回归,序列化检验,方差消减等。
演讲题目:社交网络实验在微信实验平台的应用
演讲提纲:
在互联网场景中,用户和用户之间会通过各种各样的形式相互关联,相互影响,这被称作网络效应。当存在网络效应时,传统AB实验的形式对于策略效果的估计是存在偏差的。我们将分享一种叫做基于簇的随机化网络实验。它的思想是把网络传播路径用一个社交关系图来刻画,并通过算法把关系图划分成不相交的簇,对簇做随机化实验,从而降低网络效应带来的偏差。我们将介绍如何构建一个有效的网络关系图,在做簇的划分时应该考虑哪些要素,如何将这种实验形式跟传统的AB实验融合起来,从而进行大规模的网络实验,以及做完实验之后怎么对得到的数据进行有效的假设检验和统计推断。最后,我们将分享网络实验在微信的社交场景下发现网络效应并降低实验偏差的案例。
听众收益:
1. 了解为什么要做社交网络实验
2. 了解社交网络实验的基本流程
3. 了解社交网络实验统计推断的理论框架
个人介绍:硕士毕业于康奈尔大学统计系,目前就职于滴滴,主要负责因果推断方向的算法研究和业务落地工作。
演讲题目:基于业务先验知识的多维连续 Treatment 因果模型
演讲提纲:
1. 业务背景与应用
2. 问题定义与挑战
3. 多维连续 Treatment 因果模型探索与实践
4. 总结与讨论
听众收益:
1. 多维连续 Treatment 因果模型的已有研究进展
2. 业务先验知识对因果建模的重要作用
3. 如何在因果模型中引入业务先验知识
个人介绍:付大鹏,蚂蚁集团安全AI工程架构师。毕业于复旦大学,主要从事蚂蚁安全智能风控博弈平台、可信AI检测平台和安全多方风控平台建设,曾参与蚂蚁集团第五代智能风控引擎AlphaRisk的建设和信通院MLOps、大模型、智能风控等多项标准的编制工作,获得中国人工智能产业发展联盟(AIIA)和人工智能关键技术和应用评测重点实验室联合颁发的“2022年突出贡献个人”荣誉称号。
演讲题目:蚂蚁安全风控 MLOps 智能新范式下的布局与实践
演讲提纲:
随着近些年人工智能的快速发展,人工智能依托大数据、云计算成为风控领域的核心能力,需要具有对风险的快速响应和攻防能力,不断应对黑灰产的攻击。构建可监控、可持续迭代、规模化、自动化的机器学习链路和智能风控平台,以高效敏捷的方式应对风险形势和作案手法变化,对风控的动态攻防能力有着极其重大的意义。从蚂蚁安全风控场景出发,介绍蚂蚁安全风控MLOps建设面临的主要挑战、整体架构,及数据研发、模型监控、持续训练、自动模型测评、持续部署、平台可信等各模块的方案和思路,并对大模型带来的变化和工程落地进行阐述。
听众收益:
1. 如何构建安全风控领域的 MLOps 系统
2. 如何对模型质量进行评估
3. 如何对线上模型监控
4. 如何进行持续训练
5. 如何构建 AI 平台可信能力
个人介绍:耿云涛,Alluxio解决方案架构师,十余年大数据相关的产品研发、解决方案和项目实践经验,对于企业级的数据仓库、数据平台、数据中台建设拥有深入的认知和丰富的实践经验。
演讲题目:Alluxio 编排和缓存,助力企业存算分离架构改造
演讲提纲:
1. 存算分离架构的收益和挑战
2. Alluxio 产品能力介绍
3. Alluxio 如何助力解决存算分离架构下的各种挑战
听众收益:
1. 认识存算分离架构下可能面临的问题和挑战:统一接口、统一安全、网络带宽负载、计算性能、数据迁移……
2. 如何利用 Alluxio 协助解决存算分离架构下遇到的问题和挑战
个人介绍:architect @ NewsBreak,负责云原生数据平台的建设和技术演进。ex-engineer @ FreeWheel,负责分析型数据平台和数据产品构建。
演讲题目:Alluxio Local Cache for Presto on S3 at NewsBreak
演讲提纲:云原生的数据平台架构下,数据量和使用量伴随着业务成不断增长和发展,性能和成本逐渐成为一个孪生的重点。在 Presto + S3 的 lakehouse 架构下,我们通过分析数据分布和使用特征,从常规的数据优化,到后来引入 Alluxio Local Cache,达到一个阶段性的性能和成本的平衡。
听众收益:
1. Alluxio Local Cache 的一些实践
2. 如何加速 Presto on S
3.的同时降低成本
个人介绍:何展,NVIDIA中国区Omniverse业务负责人,毕业于南开大学,曾就职于Autodesk,SAP,GE Digital等公司负责市场以及ToB战略咨询以及管理业务,目前就职于NVIDIA,负责中国区Omniverse 和RTX企业级产品线在中国区域的业务拓展工作,对AI、机器学习以及深度学习有资深的经历和见解,目前专注在推广数字孪生在工业行业的AI应用、AI数字虚拟人、数字资产创建、生成式AI等落地应用上。
演讲题目:LLM和生成式AI时代下的数字虚拟人技术变革
演讲提纲:
在大规模语言模型和生成式AI技术背景下,如何帮助数字虚拟人创作者提升生产力是所有人都关注的话题,哪些技术赋能行业数字虚拟人创建,同时计算机视觉、计算机图形学、物理引擎模拟、AI、XR以及云原生等技术如何相互融合,演讲中会给大家分享NVIDIA英伟达在这些方面的理解。
个人介绍:胡炎根,美团语音交互部对话机器人方向算法负责人,负责文本、外呼机器人的建设。有超过12年的NLP相关学习、工作经历,具体方向包括知识图谱、对话系统构建等。
演讲题目:大模型智能问答技术在美团对话机器人中的探索与实践
演讲提纲:
1. 对话系统简介
2. 传统 KBQA、FAQ、DocQA 等智能问答技术介绍
3. 基于大模型的智能问答技术介绍
听众收益:
1. 对话机器人的基础原理
2. 大模型下如何高效构建智能问答系统
个人介绍:中国人民大学高瓴人工智能学院助理教授、博导。曾在清华大学智能产业研究院担任助理研究员,腾讯AI Lab担任高级研究员。研究方向包括几何机器学习理论方法,及其在智能药物发现、物理场景理解与生成、智能体感知与决策等跨领域任务上的应用。代表性工作包括:训练深度图神经网络的方法DropEdge;面向大规模图的图神经网络高效训练方法AS-GCN;针对抗体生成的多通道等变注意力网络MEAN。曾获ICLR 2023 杰出论文提名奖,NeurIPS 2022 Open Catalyst 比赛冠军、IROS 2020 OCRTOC 机器人比赛季军、腾讯犀牛鸟专项研究卓越奖、NeurIPS Outstanding Reviewer等奖项。
演讲题目:面向物理空间的几何图神经网络设计
演讲提纲:物理世界中的分子、蛋白质、晶体、宏观物理系统等,均具有特定的空间几何结构,构成了一类重要的数据形态——几何图。与社交网络中的拓扑图不同,几何图中的节点占据了一定的空间位置,需要满足某些内蕴的物理性质,比如对称性,导致传统的图神经网络难以处理几何图。近年来,等变图神经网络由于有效嵌入了对称性,具有良好的解释性、泛化性和通用性,在分子系统表示上得到了广泛应用。本报告将梳理等变图神经网络的发展概况,并且介绍课题组近期在分子动力学模拟、小分子生成、抗体设计与优化、多物体交互、智能体行为控制等重要任务上的应用情况。
听众收益:
1.了解几何图、几何图神经网络的基本概念和典型模型;
2.了解几何图神经网络在AI for Science和具身智能等跨领域任务上的应用。
个人介绍:贾守盛,360高级算法研究员,NLP部以及大模型算法负责人,主要从事搜索query分析,搜索推荐,LLM等算法研发工作。带领360搜索nlp团队率先在2019年大规模落地bert等预训练模型,2023年带领团队从0到1开发了360GPT模型,目前已应用在搜索,浏览器,数字人,知识问题,广告创意生成等领域中。
演讲题目:360 GPT 在业务场景的主要应用
演讲提纲:
1. 360 GPT 模型介绍
2. 360 GPT 在搜索场景上的应用
3. 360 GPT 在数字人方面的应用
听众收益:
1. LLM 和向量检索在多轮对话时如何更好的融合
2. 360 GPT 在数字人方面如何产生更好的应用效果
个人介绍:毕业于清华大学,在视频+人工智能和XR领域有超过10年的经验。曾在华为和腾讯负责创新技术研发工作,目前在快手领导团队开发3D数字人解决方案和虚拟世界互动平台。
演讲题目:快手 3D 数字人直播与互动解决方案
演讲提纲:
快手围绕3D数字人开播及互动落地,在直播、社交等领域进行了系列实践,背后来自3D数字人开播互动技术方案的强大支撑—— 快手虚拟演播解决方案KVSS(Kuaishou Virtual Studio Solution ), 为此快手建设了虚拟世界互动平台(Kuaishou Metaverse Interactive Platform,简称KMIP),基于 PAAS 技术基础支撑各种应用场景。在本次分享中,我们将介绍快手 KVSS解决方案的架构,并分享如何接入快手虚拟世界应用生态,与数亿用户一起共拓元宇宙应用市场
主要内容包括:
1. 快手 3D 数字人案例,解决方案综述
2. 快手 3D 数字人开播技术:建模、驱动等
3. 快手 3D 数字人互动技术:游戏化 & 开放平台
4. 总结与展望
听众收益:
1. 了解 3D 数字人的技术原理和如何直播
2. 了解 3D 数字人互动和游戏技术的关联拓展
3. 了解目前直播间互动游戏化的案例和未来元宇宙直播间的可能形态
个人介绍:国强2013年毕业即加入百度,主要负责商业平台存储方向。所负责的BaikalDB具有高弹性,高吞吐,高易用,低成本的特性,在过去几年把商业平台广告库和十几个辅助存储都统一到BaikalDB。
演讲题目:BaikalDB 在凤巢广告库的应用
演讲提纲:
主要介绍商业平台广告库的架构演进,分布式数据库和分库分表的核心差异,BaikalDB的核心设计点,广告库不停机无损迁移的方案。
听众收益:
1. 商业平台广告库的 10 年架构演进
2. 如何做到业务无感不停机替换数据库
3. BaikalDB 的若干核心设计点
个人介绍:博士毕业于中国科学院自动化研究所,研究方向是自然语言处理、自动文摘和文本生成,在TKDE、TASLP、TALLIP、ACL、EMNLP、COLING、AAAI和IJCAI等国内外期刊杂志发表论文20余篇。现任京东科技智能服务与产品部AIGC方向算法负责人,利用可控文本生成算法,生成的商品文案的曝光点击率比专业写手高40%,提高客服咨询转化率5%,累积引单额超3亿,降低商品文案创作成本90%以上。
演讲题目:基于知识图谱的 AIGC
演讲提纲:
知识图谱蕴含着丰富的人类知识,为机器实现认知智能提供了重要指导;AIGC旨在自动生成流畅合法的文本,是人类与机器沟通的桥梁。借助知识图谱的力量,对AIGC进行指导和规范,是实现可控AIGC重要途径。本次报告将分享京东科技NLP团队在基于知识图谱的AIGC方向上的实践经验。具体包括:
1. 基于电商知识图谱的AIGC
2. 基于通用知识图谱的AIGC
3. 基于知识图谱的生成式预训练模型
听众收益:
1. 了解基于知识图谱的 AIGC 前沿技术、研究动态等
2. 了解 AIGC 技术在电商领域的落地场景、面临的挑战、成功应用的经验及未来的机会
3. 为业内提供 AIGC 新思路
个人介绍:李宏基毕业于同济大学,一直从事软件研发相关的工作。工作的前十年在两家外企Autodesk和Splunk,其中Splunk是一家专门做大数据分析的公司,可能熟悉大数据领域的小伙伴有听过这家公司,Splunk也是比较早的主打读时建模技术的公司。在2020年的夏天,我们一些志同道合的小伙伴就一起从Splunk出来创业了,成立了炎凰数据。我目前在炎凰主要在前端领域,做前端框架和功能页面开发的工作。
演讲题目:异构日志可视化在国产数据平台的探索与实践
演讲提纲:
本次分享先从日志分析领域的技术痛点和读时建模的核心技术理念出发,引出以异构数据搜索引擎为技术特色的国产时序文本数据库-炎凰数据平台,分析并介绍炎凰数据平台的数据存储以及数据查询。接下来会继续介绍基于echarts的平台数据可视化,以及通过实例进一步展示了如何进行数据分析,最后使用分析结果构建各种类型的图表和可视化效果。
听众收益:
1. 读时建模技术的特点和优势场景,及其在日志分析场景的落地
2. 数据可视化面临的技术挑战以及数据可视化的适配方案
3. 数据可视化方案的落地和应用实践
个人介绍:目前负责数势科技数据资产云产品的研发,主要包括指标平台产品的设计、开发、测试、运营和迭代等。拥有15年+大数据研发、产品经验,是前京东大数据架构师,作为负责人,服务过沃尔玛、永辉等顶级企业的数据中台项目。
演讲题目:如何设计好的指标平台?
演讲提纲:
1. 指标平台出现的必然性:经营分析数字化程度与企业经营的长期业绩表现成正比,其核心是指标的管理和应用。
2. 以指标为中心的指标平台应当具备的特点:
· 指标定义规范化且加工门槛低
· 指标API标准且易配置
· 产品体验自助且高效
· 指标查询性能与安全性高
3. 好的指标平台产品的设计理念与核心功能
· 理念:一体、高效、联结
· 功能:指标定义、指标开发、指标管理、指标市场、指标应用与指标服务
4. 指标平台设计时应重点关注的三大核心难点与解决思路:
· 怎样提高指标开发的效率?
· 怎样提高使用指标进行数据查询的性能?
· 如何方便快捷的连接上下游?
5. 优秀的指标平台将为企业带来的核心价值聚焦组织效率和业务场景价值,赋能企业数字化经营:
· 价值之一:IT效能提升
· 价值之二:业务数据分析效率提升
· 价值之三:推动数字化基建走向成熟
听众收益:
1. 怎样提高使用指标进行数据查询的性能?
2. 好的指标平台设计应该满足什么业务要求?
3. 平台产品如何最大化指标价值,赋能上下游?
4. 指标平台作为主要的提效工具,企业如何选型?
个人介绍:2010年硕士毕业于中南大学计算机科学与技术专业,十余年软件开发、架构和团队管理经验。前中兴通讯研发团队负责人、敏捷技术教练,前thoughtworks高级咨询师。现在就职于中国移动通信有限公司研究院,负责九天网络智能化平台产品研发。
演讲题目:MLOPS 在网络智能化领域落地
演讲提纲:
1. 九天网络智能化平台产品简介
2. 为何在产品中引入 MLOPS
3. MLOPS 在产品中落地实践
听众收益:
1. 如何解决 AI 工程化落地难的问题
2. MLOPS 模型封装环节技术选型
3. MLOPS 模型监控环节技术选型
个人介绍:林俊旸,阿里巴巴达摩院高级算法专家,毕业于北京大学。他的研究领域包括自然语言处理和多模态表示学习,研究兴趣集中于大规模语言模型和多模态大模型,曾在多个顶级会议发表多篇论文,引用量1900+。他曾负责打造超大规模多模态预训练模型M6,通用统一多模态预训练模型OFA,中文预训练模型Chinese CLIP等,推动大模型开源开放及落地应用。
演讲题目:通义千问模型及服务
演讲提纲:
本演讲将介绍阿里达摩院大模型通义千问的技术和服务应用,其中包括:
1. 当前全球大模型发展的背景及其对学界和业界的影响;
2. 阿里达摩院大模型通义千问的技术特点和实现方案
3. 通义千问的模型服务及应用场景
听众收益:
1. 以阿里达摩院大模型为代表的国内大模型技术进展
2. 大规模语言模型和多模态模型的技术实现
3. 大模型的应用方法与场景
个人介绍:毕业于中南大学后,随后加入华为负责5G室内覆盖数据分析平台开发相关工作,20年加入货拉拉科技公司,从0到1负责搭建了货拉拉AB实验平台,实现多种分流算法(随机、时间片轮转、时空等)助力公司在货运双边市场场景下科学、高效地完成AB实验。
演讲题目:货运双边市场下AB实验分流算法实践
演讲提纲:
在货拉拉大数据中台下的AB实验平台目前已服务货拉拉的全线业务,助力完成各产品10w+次的功能迭代AB实验,每日生产千级别的效果分析报告,帮助业务进行决策。由于货运市场是一个双边市场,对AB实验分流算法的诉求有别于一般的单边场景。所以本文会先简要介绍货拉拉公司对AB实验的诉求,以及货拉拉AB实验平台的技术架构,然后重点分享在双边市场场景下的货拉拉AB实验平台多种分流算法的落地实践。最后也会介绍货拉拉AB实验平台在实验科学性方面做的前沿探索。
听众收益:
1. 货拉拉AB实验平台的架构设计
2. 双边市场多种分流算法落地实践
个人介绍:14年硕士毕业于南京信息工程大学,一直从事数据领域相关工作。18年加入滴滴,现任滴滴【数据平台与应用部-大数据资产平台】研发团队负责人,主要承担滴滴大数据治理相关工作。负责推动推动、落地相关治理能力栈(健康分模型,血缘,治理工作台等),进行大数据全域(Hadoop、ES、Flink、OLAP 等)治理。当前工作重心主要放在成本治理、安全治理等方面。
演讲题目:大数据成本治理
演讲提纲:
1. 滴滴大数据成本治理总体框架
2. Hadoop 成本治理在滴滴具体实践
3. 在治理工作中的总结思考
听众收益:
1. 如何设计大数据成本治理框架?
2. 如何进行 Hadoop 成本治理?
3. 在大数据成本治理会遇到的问题,及如何解决
个人介绍:刘时光,现任小米集团互联网业务部数据科学产品总监,从战略、人才、组织、技术架构以及分析方案等多维度打造一流的增长分析平台和数据驱动的科学组织文化。 2010年加入阿里巴巴云计算公司,先后在CNZZ、阿里妈妈、友盟等部门从事数据及营销类产品经理工作。2017年加入滴滴,参与过世界级预算规模的POPE营销引擎的搭建,并在数据科学与智能部负责用户画像系统、DSP外投等增长类数据智能产品工作。近十年在数据科学和增长产品领域,获得发明设计专利授权5项。
演讲题目:基于 AB 实验的边际 ROI 增长分析实践
演讲提纲:
1. 降本增效下如何做好增长分析
2. 基于 AB 实验方法的边际 ROI 计量与实践
3. 基于 AB 实验方法的边际 CAC 计量与实践
听众收益:
1. 互联网增长分析核心工作内容
2. 如何通过 AB 实验剔除策略效果中的自然增长量
3. 降本增效背景下,互联网广告主与广告平台之间的博弈逻辑
个人介绍:前字节技术产品,曾任算法中台负责,AI creator创始人,AI hackathon冠军,持续创业者,武汉大学。
演讲题目:RWKV-次世代大语言模型的异质化路线
演讲提纲:
探讨RWKV大语言模型的过去现在和未来。
听众收益:
什么是全球唯一RNN架构大语言模型RWKV。
个人介绍:阿里巴巴高级算法专家,硕士毕业于中国科学院大学。一直从事于搜索推荐等相关技术研究,将先进技术落地于平台和产品,多项研究成果发表在IJCAI/ICDE等学术会议。目前在淘宝直播负责搜索、营销等相关算法技术。
演讲题目:淘宝直播搜索算法思考与演进
演讲提纲:
基于淘宝直播搜索的内容实时化、意图多元化和物料异构化的特点,介绍了搜索算法在技术的迭代与创新。
听众收益:
1. 直播搜索算法的全链路实时化
2. 直播搜索多元意图的识别与应用
3. 直播搜索异构物料的统一建模与实践
个人介绍:Flink/StarRocks Contributor,毕业后入职滴滴,先后参与滴滴实时计算引擎Flink、数据集成服务的建设,目前主要负责 OLAP引擎StarRocks的开发工作。
演讲题目:StarRocks物化视图在滴滴的实践
演讲提纲:
1. 背景介绍
· StarRocks在滴滴的发展历程· StarRocks物化视图的概念及优势
2. 物化视图在滴滴OLAP场景中的实践
· 同步物化视图的实践· 异步物化视图的实践
3. 总结与规划
· 物化视图的优势和局限
· 物化视图在数据分析中的重要性
· 未来发展方向与思考
听众收益:
1. 通过同步物化视图提升多维分析的查询性能2. 通过异步物化视图提升高基数精确去重实时看板性能
个人介绍:硕士毕业于清华大学,曾在美团、猿辅导从事模型优化的工作。目前在快手商业化算法部,主要负责模型训练基础设施建设方面的工作,主要擅长领域包括稀疏模型分布式训练、特征提取框架。
演讲题目:基于语法树的广告模型特征提取框架
演讲提纲:
1. 为广告模型特征提取定制 DSL,简单易用,扩展灵活
2. 特征提取数据与计算逻辑解耦,计算逻辑实现算子化,方便进行更灵活的组合
3. 以特征 AST 为核心,算法使用与底层实现解耦,方便进行工程优化与扩展
4. 掌握特征提取所有细节,在代码层面理解特征,为算法使用提供更多业务价值
5. 从零开始实现完整的 DSL,针对不同场景可以轻松扩展
听众收益:
1. 如何将模型特征标准化,高效产生所需特征
2. 如何将算法同学使用特征与底层实现解耦,方便进行工程优化与升级
3. 如何实现一门 DSL 语言,包括 lexer、ast 等核心模块,并与实际场景相结合
个人介绍:罗文娟,博士毕业于中国科学院计算技术研究所,研究方向为文本挖掘。毕业后曾在美团从事用户增长相关算法优化,在滴滴担任资源分配业务负责人。加入快手后,主要工作内容为基于因果推断算法优化push效率提升push效果。读博和工作期间曾在ICDM,KDD,NIPS,Information Processing & Management , Knowledge Based System等顶级会议和期刊上发表多篇论文,并发表国际专利一项。
演讲题目:基于观测数据的因果推断技术
演讲提纲:
工业界的因果推断应用大多数场景下需要依赖于随机试验数据(random control),随机试验数据因为符合因果推断需要的一些完美假设,往往在落地中有非常好的效果。但是在实际业务中,我们往往囿于法律、法规、伦理、道德、公平性、成本等原因没有办法进行随机试验。虽然我们从实际的日志数据中,往往能收集到不少的观测性样本,但是这些观测性样本大多数情况下都是有偏的,存在非常多的混杂。本次分享主要是针对无法或者说仅能做有限的随机试验的情况下,我们怎么基于观测样本进行因果推断,帮助大家从算法和业务两个方向去更清晰地学习和落地因果推断技术,助力业务的发展。
主要内容包括:
1、观测性样本如何做deConfounding
2、观测性样本如何评估因果推断效果
听众收益:
、了解如何在无法进行随机试验的情况下怎么做因果推断
2、如何对观测性样本进行消偏
3、基于观测性样本进行因果推断的实践
个人介绍:2015年硕士毕业北京邮电大学,同年加入百度,先后负责百度商业广告体系产品报表、商业分析体系、客户报表、图灵数据平台等工作。图灵实时数据分析平台将百TB大数据查询场景平均耗时降至秒级,助力百度商业数据分析效率提升30余倍。高查询效率,高基础数据时效性让图灵平台成为商业业务数据分析的首选,为业务高速迭代做出巨大贡献。图灵平台先后丰富了数据集成、数据例行加工能周边能力,凭借强大的功能及优越性能,图灵平台从服务商业业务场景逐渐拓展至搜索、feed、百度APP等商业外多个业务线,成长为百度MEG体系最受欢迎的数据分析平台。
演讲题目:百度图灵湖仓查询优化
演讲提纲:
百度商业体系广告是一个强数据驱动的业务系统,对快速的数据分析查询的诉求十分强烈。同时,一个广告数据的应用场景极其多样,有面向数据分析师使用的长时间窗内多维的业务数据指标分析,有面向RD进行系统诊断、策略调优的Trace类分析,有面向QA&RD使用的常态监控数据查询需求。多样的场景、复杂的日志构成、用户对查询效率的更高诉求,在过去几年中催动着图灵平台不断进化。过去几年,图灵数据分析平台在数据建模优化、查询多引擎使用,智能调优等多个方面完成诸多卓有成效的工作。
主要内容包括:
1. 百度商业数据分析业务介绍
2. 图灵的数据分析挑战
3. 百度商业湖仓数据建模介绍(扁平分层与面向使用频次优化的加速数据层)
4. 图灵数据分析的架构选择
5. 图灵智能查询分发
6. 图灵智能调优(APM+optimizer)
听众收益:
1. 如果建设一个高效的湖仓数据模型?
2. 什么是一个好的数据分析引擎?
3. 如何通过智能调参,实现提速30%
个人介绍:22年加入腾讯PCG大数据平台部任职数据工程T11工程师,主要负责PCG元数据建设(链路、血缘、热度、成本等),构建治理引擎(资产分体系、治理引擎)和构建大数据开发相关套件。曾任蚂蚁金服高级数据技术专家。蚂蚁流量效能实时数据团队负责人,负责整个蚂蚁实时流量、营销、商家、搜索推荐实时数据建设。数字金融线平台流量负责人,负责余额宝、基金、定期、内容离线以及实时数据体系建设。构建全蚂蚁的流量归因解决方案。负责推进数仓工具栈(元数据、DQC、血缘)在实时开发平台落地,以及实施任务的治理工作。
演讲题目:腾讯 PCG 数据治理体系
演讲提纲:
1. 元数据仓库建设
2. 治理项发现&资产分体系
3. 治理引擎
听众收益:
1. 如何基于图思想的元仓建设?
2. 如何进行资产价值评估?
3. 治理引擎如何帮助公司降低成本?
个人介绍:毕业于对外经济贸易大学,曾在宜信公司从事授信、反欺诈和催收相关风控模型工作。2021年加入京东科技,目前主要从事金融风控模型验证相关工作。
演讲题目:金融风控场景下的模型验证
演讲提纲:
1. 模型验证的背景和发展
2. 模型验证体系
3. 京东在验证工具领域的探索
4. 模型验证未来展望
听众收益:
1. 了解模型验证体系框架及建设思路;
2. 了解模型验证自动化方案;
个人介绍:博士毕业于 Ecole Centrale de Lyon,在 eBay 负责 Fraud Detection 相关的模型算法工作。
演讲题目:支付欺诈风控场景下对行为序列编码建模的探索(Behavior sequence embedding modeling explorations in transaction fraud detection)
演讲提纲:
1. Background introduction: a. general motivation of keep evolving the method of behavior sequence embedding in transaction fraud detection. b. some previous trials and emerging challenges.
2. Model introduction: a.what recent approaches have been exploring for domain modeling usage purpose. b. the ideas in the recent approaches to engage the challenges mentioned in background introduction.
3. Result analysis: a.brief results analysis according to the model introduced in real world data.
4. Related Engineering workflow
听众收益:
Some behavior modeling approaches considered the info of actual e-commerce risk domain as inductive bias.
个人介绍:我是 Juicedata 合伙人苏锐,作为 1 号成员参与创建云原生分布式文件系统 JuiceFS,先通过全球公有云上的 SaaS 产品获得国内外几十家商业客户。之后于 2021 年 1 月 JuiceFS 开源,经过两年的社区发展,在 GitHub 上获得 8000 多星,每天有数千活跃集群,是这两年全球发展最快的文件存储项目之一。苏锐在加入 Juicedata 前,历任 O2O 汽车服务品牌功夫洗车创始人 & CEO,豆瓣电影 PM & Tech Lead,公益组织多背一公斤和傲游浏览器的创始团队成员。
演讲题目:JuiceFS 上的湖仓一体探索与实践
演讲提纲:数据仓库、数据湖、湖仓一体,新的概念层出不穷,它们之间有什么关系?是渐进式迭代还是颠覆式创新?在 AI 浪潮下又有何发展?本次演讲为各位介绍 JuiceFS 在大数据生态和湖仓一体架构下的探索和用户案例实践。
具体内容包括:
1. 数据湖和湖仓一体中不同存储系统的优劣势
2. 为什么要做 JuiceFS,以及架构设计理念
3. JuiceFS 在湖仓一体架构中的作用
4. 用户案例分享
5. AI 对数据湖、湖仓一体的影响
听众收益:
1. 比较数据湖存储方案,了解优劣势
2. 从要解决的问题出发,了解 JuiceFS 的设计理念与过程
3. 了解用户在 JuiceFS 上的湖仓一体实践
个人介绍:硕士毕业于北京航空航天大学,19年加入度小满,专注于nlp技术在金融风控领域的落地应用,利用大数据和AI算法提升金融科技能力。
演讲题目:NLP在风控中的应用
演讲提纲:
主要介绍NLP技术在风控业务上的应用,使用深度学习模型对非结构化数据和超长文本数据进行建模,将大模型预训练技术应用于风控实践;同时结合业务经验介绍一些模型轻量化部署经验,主要包括模型结构优化加速、多模融合和蒸馏压缩方法。
听众收益:
1. 超长文本数据如何建模,效果如何?
2. 通用预训练与领域预训练在风控实践上的差异?
3. 大模型如果进行轻量化部署?
个人介绍:杭州电子科技大学本科,2013年加入网易,从0到1完成云音乐数据平台的搭建工作,目前是云音乐计算平台团队负责人,负责数据集成等平台工具的开发工作。
演讲题目:基于元数据构建智能化治理平台建设实践
演讲提纲:
1.云音乐数据平台规模和现状
2.治理平台的建设背景和目标
3.治理平台的设计和落地 · 整体架构设计和思考 · 元数据仓库设计 · 智能化规则执行 · 治理流程的闭环思考
4.治理平台的未来建设规划
听众收益:
1. 了解云音乐的数据平台的规模、现状、以及问题
2. 如果搭建灵活的扩展性强的数据治理平台
3. 了解治理平台的落地场景和未来走向
个人介绍:小米数据中台部集团销服数仓负责人,专注数仓建设、指标体系建设等领域。
演讲题目:小米指标体系的建设及管理最佳实践
演讲提纲:
指标体系的建设和管理是数据仓库的核心内容之一。本次分享将从方法论出发,结合小米数据的实践经验,分享搭建、管理指标体系的最佳实践。
主要内容包括:
1. 指标体系概述:在复杂业务场景下,指标体系是决策的关键,针对小米业务场景,将通过阐述指标体系的重要性,带来指标体系概述。
2.业务痛点和指标体系的解决方式:这一部分,将分享小米在建设指标体系时所遇到的业务痛点,并深度解读指标体系解决问题的方式。
3.指标体系的搭建方法:深入探讨指标体系的搭建方法,重点介绍如何使用OSM模型建指标体系,以及如何在小米落地的过程中践行这一方法。
4.指标体系的管理最佳实践:本部分将介绍指标体系的管理最佳实践,包括统一流程、规范化、工具化管理指标体系,通过产品化方式管理指标体系,在业务系统、数仓、BI展示全链路。
5.总结与展望:对本次分享的内容简要总结,并对指标体系未来的演变方向展开一定的探讨和展望。
听众收益:
1. 方法论与最佳实践
2. 结合小米toB、ToC业务场景的指标体系建设实践
3. 指标体系全链路可视化的实现思路
个人介绍:目前就职于字节跳动 ByteHouse 团队,负责混合负载相关工作。曾工作于华为、蚂蚁集团等,深耕大数据与云计算方向,对 Spark、Flink、Ray 等计算系统有深入研究。
演讲题目:ELT in ByteHouse: 实践与展望
演讲提纲:
当前 ByteHouse 在字节跳动有哪些使用场景和挑战?ByteHouse 在面临 ELT 负载时有何不足?我们做了哪些架构改进来提升 ByteHouse 的离线能力?未来的规划是怎么样的?将与你一起分享和探讨。
听众收益:
1. 了解 ByteHouse 在 ELT 方面的设计和实践
2. 了解为何使用 ByteHouse ELT 能力给业务带来的收益
3. 了解 ByeteHouse 未来的 ELT 规划
个人介绍:目前在哔哩哔哩OLAP平台,担任资深开发工程师,主要从事ClickHouse内核改造、性能调优等相关工作。在此之前,曾先后就职于宜信、好未来,深度参与或负责大数据平台组件的研发工作,具有五年大数据领域的开发和设计经验。
演讲题目:One size fits all: ClickHouse 在 B 站多种 OLAP 分析场景实践
演讲提纲:
主要分享B站如何使用ClickHouse支持多种OLAP分析场景的数据服务,把之前多个OLAP引擎统一收敛到ClickHouse,以及基于不同场景增强开源ClickHouse的实践经验。具体包括:
1.基于ClickHouse引擎,搭建新一代日志分析平台。
2.基于ClickHouse引擎,增强用户行为分析能力。
3.改造ClickHouse引擎,支持实时UPSERT分析场景。
听众收益:
1.日志迁移(Elasticsearch->ClickHouse)实践经验。
2.如何使用ClickHouse引擎,支持各种用户行为分析。
3.查询下推优化,复制表相关调度参数调优。
个人介绍:吴俣,现任微软亚洲研究院自然语言计算组主管研究员。2014年获得北京航空航天大学计算机科学与技术学士学位,并同年参与北航-微软联合培养博士生项目攻读博士学位,导师为李舟军教授,于2019年6月获得博士学位。在ACL、EMNLP、NIPS和ICML等顶尖会议和期刊上发表了50余篇论文。并荣获多项奖项,包括微软奖学金、百度学术中国Top 50自然语言青年研究员、InterSpeech最佳学生论文提名等。其代表作品VALL-E被Netexplo Observatory评选为2022年世界十大科技创新。目前,研究方向为聊天机器人,语音识别,以及预训练技术。
演讲题目:语音大模型技术进展
演讲提纲:
1. 有监督语音模型进展
2. 自监督语音模型进展
3. 未来展望
听众收益:
1. 如何训练百万小时语音合成/识别模型
2. 语音预训练模型的价值
3. 对已有工作缺点的总结和未来工作展望
个人介绍:谢德军,MaxCompute SQL引擎技术负责人,深耕离线大数据SQL引擎领域14年。带领团队连续多年保持大数据领域权威Benchmark TPCx-BB世界第一,并且每年性能提升40%以上。通过持续对线上性能瓶颈做针对性的优化,MaxCompute SQL引擎的Adaptive能力做到了行业领先,也将MaxCompute Serverless能力提升到了一个新的台阶。
演讲题目:MaxCompute Serverless 架构演进
演讲提纲:
MaxCompute作为阿里云大数据核心自研产品,从第一天开始架构就完全面向云的特点来设计,是一个生在云上长在云上的产品。经过10多年的发展,MaxCompute相对于其他上云的产品在云原生、尤其是云原生的新范式Serverless方面有哪些特点那?本次分享会回顾MaxCompute的架构演进,介绍Serverless产品设计及背后的技术支撑,尤其是核心SQL引擎如何面向大数据场景独特挑战等。
听众收益:
1. 云原生大数据平台 MaxCompute 架构演进
2. Serverless 产品设计及背后的技术支撑
3. 自研 SQL 引擎如何面向大数据场景独特挑战
个人介绍:谢寅,镜舟科技首席解决方案架构师。曾供职于 CBS Interactive、PerfectWorld、ChinaCache 等企业,具有多年大数据开发经验,致力于持续迭代完善基于实时数仓、自助式分析、绩效分析、湖仓融合联邦分析等金融类业务场景的联合解决方案。
演讲题目:StarRocks 实现湖仓融合的方式与实践
演讲提纲:
1. StarRocks 3.0 存算分离的价值与性能
2. StarRocks 湖仓融合一体化能力解析
3. 落地应用讲解与实践案例分享
听众收益:
1. 前沿的大数据技术架构
2. 湖仓融合痛点的应对方法
3. StarRocks 3.0 技术揭秘
个人介绍:北京大学本硕。曾任职英特尔、爱奇艺,Intel 显卡虚拟化早期开源作者;后任明略科技技术合伙人,技术中心NLP高级架构师、高级技术总监;现在为分贝通公司 NLP 算法负责人。
演讲题目:分贝通基于大模型的创新应用
演讲提纲:
介绍分贝通如何基于大模型快速驱动数智化、智能化,并在内部与外部进行落地实践。分为背景介绍、技术与算法架构、应用举例、未来展望等。
听众收益:
1. 如何将大模型全面运用于企业内外部进行快速的效率提升
2. 如何基于大模型打造企业的智能底座
3. 以上两点实践中遇到的挑战与解决思路分享
个人介绍:理想汽车知识图谱团队负责人,硕士毕业于北京邮电大学计算机学院。之前在阿里、腾讯、百度等公司履职。主要工作方向为知识图谱、搜索推荐、对话问答等,具备丰富的工业系统实践经验。
演讲题目:大模型时代下的知识图谱构建和应用
演讲提纲:
1. 知识图谱和大模型技术简介
2. 大模型对知识图谱要求以及构建
3. 知识图谱如何和大模型进行结合应用
听众收益:
1. 了解知识图谱前沿技术
2. 知识图谱如何与大模型进行结合,与传统知识图谱的工作重心区别
3. 知识图谱如何帮助提升大模型的回复质量
个人介绍:专注于分布式计算和存储,对 Spark 和 PostgreSQL 有深入研究。
演讲题目:StarRocks 助力携程报表查询极速化改造
演讲提纲:
1. 报表服务整体架构
2. 存在问题
3. StarRocks 特点
4. 整合 StarRocks 后的收益
5. 迁移中的问题及解决
听众收益:
1. StarRocks 加速报表查询
2. 如何快速迁移 Presto 查询到 StarRocks
3. 如何调优 StarRocks 查询
个人介绍:在抖音向量检索数据库团队负责向量检索引擎开发。
演讲题目:云原生向量数据库的发展和展望
演讲提纲:
本次分享主要介绍云原生向量数据库的发展和展望,结合行业实践,向听众介绍从向量数据库的基础概念到最新进展的相关技术知识。
主要内容包括:
1. 非结构化信息与向量检索
2. 云原生向量数据库技术
a. 当前主流架构演进,和传统数据库的对比
b. ANN索引技术(索引设计、量化、调优)
c. 海量数据索引的存算分离架构d. 索引和实时更新技术
3. 向量数据库发展展望
a. 硬件加速计算
b. 非结构化和结构化信息融合(过滤)
c. Hybrid Search 混合向量检索d. 大模型时代的向量数据库
听众收益:
1. 向量数据库的概念、应用场景、技术挑战、变化趋势
2. 向量数据库行业实践和当前最新技术趋势
3. 向量数据库的变迁和未来方向的思考
个人介绍:硕士,17年加入百度,负责商业策略中台与AIGC相关技术。在文、图、视频、落地页等多模态理解、生成方面,突破了多项复杂技术问题,广泛提升了公司系统模型对富媒体内容的高阶认知和常识推理的能力,大幅提升了公司商业系统的变现效果。主持的项目多次获得公司及部门奖励,其中多模态理解项目-“视界”项目获得百度2021年最高奖Top8。近年来个人提出的多项核心算法,被KDD、SIGIR、EMNLP、CIKM等国际顶级会议所接收,总计发表论文10+篇。
演讲题目:百度商业多模态理解及 AIGC 创新实践
演讲提纲:
该演讲内容主要介绍百度商业策略研发在多模态内容理解及AIGC上的创新实践与技术成果。主要从基础模型建设,商业检索系统中场景化建模方案,以及相关技术的业务成果呈现。
听众收益:
1. 基础表征性能优异,在域内数据+公开图文数据集中有明显优势,并提出了一种基础表征的场景化牵引学习方案;
2. 提出了多尺度、多层级的内容表征量化算法,进一步提升内容特征与商业大规模离散信号的融合能力;
3. 提出了一种不同模态内容消息传递的图神经网络,通过模态分层与层内、层间对比学习,提升不同模态内容在推荐场景的召回能力;
4. 提出了一种表征+生成学习相结合的多模态扩散模型,显著提升 AIGC 生成质量。
个人介绍:2014 年加入百度,现任商业平台部资深研发工程师,商业体系平台工程团队大数据方向 leader,百度商业大数据 LKT 成员。主要负责面向商业数据产品的大数据基建和应用架构工作,曾主导离线环境全面 Serverless 化改造,拥有数据治理领域十余项发明专利,对构建智能化 DataOps 大数据系统、保障复杂业务数据链路时效性与稳定性方面具有丰富经验。
个人介绍:10年全职DBA,目前在公司负责数据库产品内核设计。
演讲题目:MatrixOne: 从 NewSQL 到全新的 HTAP 分布式架构变革与创新
演讲提纲:
MatrixOne的早期版本(0.4之前),使用的是NewSQL的架构,自0.5之后,研发团队对分布式的计算与存储引擎均进行了架构升级。在新的架构下,实现了存算分离加上三层解耦的架构,确保系统具备足够的能力来平衡和优化工作负载和冲突,更好地适应了各类HTAP场景下的分布式数据库需求。
听众收益:
1. 通过 MatrixOne 的架构变化,了解分布式数据库的发展趋势
2. 对当前 MatrixOne 的HTAP新架构的更多了解
3. MatrixOne 在解决架构演进中的遇到困难,给予了研发团队哪些启发和成长
个人介绍:张子威,现为清华大学计算机系博士后,本科毕业于清华大学数理基科班,博士毕业于清华大学计算机系。主要研究方向为图机器学习,包括图表征学习、图神经网络、自动图学习等。在国际顶级会议与期刊发表论文30余篇,谷歌学术引用超过3000次。曾入选博士后创新人才支持计划,获得吴文俊人工智能优秀博士学位论文提名、清华大学优秀博士毕业生、百度AI华人新星百强榜单、AI 2000学者榜单等。
演讲题目:自动图机器学习
演讲提纲:
图神经网络已成为图机器学习的最有效范式。自动图机器学习,旨在利用自动机器学习(AutoML)技术自动化图神经网络的模型设计,近年来取得了关注,并显著增强了图神经网络处理不同图数据与图任务的自适应能力。本次报告将会分享我们在自动图机器学习,特别是图神经架构搜索(Graph Neural Architecture Search)上的一些近期工作,包括:
1. 图结构感知与针对动态异构图的图神经架构搜索,以有效建模图结构
2. 超大规模图神经架构搜索,将单机可处理图数据规模提升至亿级
3. 分布外泛化和对抗鲁棒的图神经架构搜索,增强图神经网络的自适应能力
4. 首个自动图学习开源工具包 AutoGL 和图神经架构搜索基准测试集 NAS-Bench-Graph
听众收益:
1. 如何自动设计最优的图神经网络模型?
2. 如何单机上进行亿规模图的架构搜索?
3. 如何用10行代码实现图自动机器学习?
个人介绍:赵有金(花名渊冰),蚂蚁集团安全科技商业化大数据团队负责人,在公共安全、反洗钱、风控等领域深耕多年,擅长通过建立体系化的数据指标,实现数据驱动业务增长。
演讲题目:基于指标特征的安全风险分析方法
演讲提纲:
1. 金融场景下风控面临的挑战
2.风控指标特征的构建思路与方法
○ 实时指标特征 ○ 离线指标特征 ○ 指标特征的计算调优 ○ 指标特征资产的构建
3.指标特征的应用效果4.未来风险识别方式的演进
听众收益:
1. 实时特征与批量特征结合,让黑灰产无所遁形
2. 如何进行指标特征的批量计算,节省50%以上的计算资源
3. 构建稳定的安全数据指标资产,助力安全业务降本增效
个人介绍:赵中州,阿里巴巴达摩院高级算法专家,哈工大本硕、帕维亚大学计算机硕士。十余年人机交互领域经验,阿里小蜜家族核心初创成员。目前负责达摩院数字人互动算法,带领团队先后打造了业界首个超过真人转化的电商虚拟主播、首个支持识别与合成双向交互的手语数字人等产品,目前关注数字人多模态交互、情感计算、认知推理等技术领域,以技术创新推动体验升级和业务规模化发展。
演讲题目:从Avatar到AI Being, 数字人类人互动的演进之路
演讲提纲:
数字人随着技术的持续创新与应用场景的丰富,逐渐从形象化身(Avatar)进化为具备智能与类人交互能力的数智人(AI Being),这背后需要解决实时交互、情感计算、人格模拟、个性表达等多种挑战,本次分享将围绕这些挑战带来相关的技术探索与实践,并展望在LLM加持下的数字人能力发展趋势。
内容大纲:
1、数字人技术发展、应用及挑战速览
2、实时双工交互,打破数字人互动的延迟屏障
3、情感与认知计算,构建数字人的类人大脑
4、统一人格表示,驱动数字人多模个性化表达
5、LLM加持下的数字人AGI之路
听众收益:
1.了解数字人发展现状及应用
2.了解全双工交互的技术原理及实践
3.了解情感与人格计算的技术原理及实践
4.了解LLM在数字人上的技术融合及演进趋势
个人介绍:百度商业分布式存储平台、云原生PaaS平台负责人。本硕毕业于南京大学软件工程专业,先后参与了百度商业凤巢广告推荐系统,网盟广告推荐系统的研发工作,目前主要负责百度商业分布式KV存储平台和云原生PaaS平台的研发,推进了百度商业广告系统的云原生化架构演进。
演讲题目:百度商业广告系统百万容器云原生实践
演讲提纲:
随着业内各个云计算厂商的火热发展,云原生理念以及其背后一系列的开源组件和工具集也逐步被大家所熟知和认同,各个场景和业务争相"上云"。然而,对于已经在线上稳定运行多年的存量系统,上云不是目标,我们首先需要思考要解决的核心业务问题是什么,云原生能给业务带来哪些真正的价值,然后再结合符合云原生标准的理念和工具来构建出可落地的实施方案。如何管理和运维大规模多分片重存储服务一直是业内比较关注的一个方向。其中不仅涉及到服务的稳定性和运维效率,也需要解决分片间数据一致性和版本可用性的问题,同时还能够做到平滑无感知scale up/scale out。本演讲将结合百度商业分布式KV存储平台云原生化的工作实践,为你分享一个通用的多分片服务云原生化解决方案,支持多分片服务在稳定性/一致性/变更效率等方面所要求的全部特性,支撑存量服务平滑上云,目前已覆盖百度商业广告系统数千微服务,部署规模达百万容器。希望能通过本次分享,为大规模存量系统进行云原生架构变革的相关公司提供案例参考。
听众收益:
1. 了解分布式存储系统的平台化架构
2. 设计多分片服务云原生化解决方案
个人介绍:主要负责 Aloudata 技术战略规划及产品研发,曾担任蚂蚁集团数据平台主架构师、数据治理一号位、大数据安全合规技术负责人,拥有十余年大数据平台架构经验,在 EB 级金融数据平台基础架构、数据治理、隐私安全等多个领域有成熟实践并取得显著成效。
演讲题目:EB级数仓都在用的算子级血缘如何实现主动数据治理
演讲提纲:
1. Data Fabric 数据管理新范式:主动数据治理
2. 算子级血缘激活主动数据治理:让数据管理更精细、更智能
3. 基于算子级血缘在头部金融机构的主动数据治理实践
听众收益:
1. Data Fabric 中反复提及的主动元数据有哪些关键理念创新?
2. 元数据、血缘等平台能力应如何演进,以支撑数据治理从被动到主动的变革?
3. 将数据血缘解析到算子级精细度后,将给数据治理带来何种改变?
个人介绍:2015年硕士毕业北京邮电大学,同年加入百度,先后负责百度商业广告体系产品报表、商业分析体系、客户报表、图灵数据平台等工作。图灵实时数据分析平台将百TB大数据查询场景平均耗时降至秒级,助力百度商业数据分析效率提升30余倍。高查询效率,高基础数据时效性让图灵平台成为商业业务数据分析的首选,为业务高速迭代做出巨大贡献。图灵平台先后丰富了数据集成、数据例行加工能周边能力,凭借强大的功能及优越性能,图灵平台从服务商业业务场景逐渐拓展至搜索、feed、百度APP等商业外多个业务线,成长为百度MEG体系最受欢迎的数据分析平台。
演讲题目:百度图灵湖仓查询优化
演讲提纲:
百度商业体系广告是一个强数据驱动的业务系统,对快速的数据分析查询的诉求十分强烈。同时,一个广告数据的应用场景极其多样,有面向数据分析师使用的长时间窗内多维的业务数据指标分析,有面向RD进行系统诊断、策略调优的Trace类分析,有面向QA&RD使用的常态监控数据查询需求。多样的场景、复杂的日志构成、用户对查询效率的更高诉求,在过去几年中催动着图灵平台不断进化。过去几年,图灵数据分析平台在数据建模优化、查询多引擎使用,智能调优等多个方面完成诸多卓有成效的工作。
主要内容包括:
1. 百度商业数据分析业务介绍
2. 图灵的数据分析挑战
3. 百度商业湖仓数据建模介绍(扁平分层与面向使用频次优化的加速数据层)
4. 图灵数据分析的架构选择
5. 图灵智能查询分发
6. 图灵智能调优(APM+optimizer)
听众收益:
1. 如果建设一个高效的湖仓数据模型?
2. 什么是一个好的数据分析引擎?
3. 如何通过智能调参,实现提速30%
怎么干!冲向AI大潮的技术、产业应用与资本论坛
大会主持人介绍论坛背景
硅谷连线沙龙:从硅谷到中国,大模型和AIGC的技术发展趋势和资本市场机会
主题演讲:行行需AI 智能化社会的AI人才需求瓶颈和崭新机会
主题沙龙讨论:中国产业互联网的AIGC垂直机会究竟在哪里?
云原生大数据实践论坛
议题1:百度商业广告系统百万容器云原生实践
议题2:MaxCompute Serverless 架构演进
议题3:云原生大数据在腾讯的思考与实践
议题4:云原生的关键技术及实践经验
指标体系建设与实践论坛
议题1:小米指标体系的建设及管理最佳实践
议题2:tMetric-腾讯欧拉指标中台实践
议题3:字节跳动抖音电商指标管理最佳实践
议题4:如何设计好的指标平台?
因果推断算法应用论坛
议题1:基于工具变量的因果推断和因果可泛化学习
议题2:基于观测样本的因果推断技术
议题3:因果推断技术在资源分配领域的探索和应用
议题4:基于业务先验知识的多维连续 Treatment 因果模型
智能风控最新实践论坛
议题1:NLP在风控中的应用
议题2:支付欺诈风控场景下对行为序列编码建模的探索
议题3:基于指标特征的安全风险分析方法
议题4:金融风控场景下的模型验证
OLAP发展趋势论坛
议题1:StarRocks 助力携程报表查询极速化改造
议题2:One size fits all: ClickHouse 在 B 站多种 OLAP 分析场景实践
议题3:StarRocks 物化视图在滴滴的实践
议题4:ELT in ByteHouse:实践与展望
数据资产管理实践论坛
议题1:基于元数据构建智能化治理平台建设实践
议题2:EB级数仓都在用的算子级血缘如何实现主动数据治理
议题3:腾讯 PCG 数据治理体系
议题4:阿里本地生活数据资产规范化建设实践
议题5:滴滴大数据成本治理
大模型算法前沿应用论坛
议题1:语音大模型技术进展
议题2:通用多模态大模型
议题3:百度凤巢商业模型的大模型创新和实践
议题4:分贝通基于大模型的创新应用
推荐算法最新实践论坛
议题1:超大图模型在百度推荐广告的实践
议题2:社交推荐在全民K歌的思考及实践
议题3:淘宝直播推荐算法实践
议题4:基于语法树的广告模型特征提取框架
圆桌讨论:大模型商业化的能与不能
认知篇:从技术角度让投资者和创业者理解大模型
当下篇:大模型投资与创业的主要方向与当前现状
挑战篇:大模型在技术、产品、商业化方面的挑战
方法篇:用大模型重塑行业需要打破哪些常识?遵循哪些规则?
未来篇:大模型如何重构应用、技术与团队?
国产数据库创新变革论坛
议题1:BaikalDB 在凤巢广告库的应用
议题2:云原生向量数据库的发展和展望
议题3:异构日志可视化在国产数据平台的探索与实践
议题4:MatrixOne: 从 NewSQL 到全新的 HTAP 分布式架构变革与创新
图机器学习应用论坛
议题1:AGL:蚂蚁图学习系统的工程演进
议题2:可信图神经网络及其应用
议题3:面向物理空间的几何图神经网络设计
议题4:自动图机器学习
数字人与XR互动论坛
议题1:从 Avatar 到 AI Being, 数字人类人互动的演进之路
议题2:语音驱动表情合成技术前沿进展
议题3:快手 3D 数字人直播与互动解决方案
议题4:LLM 和生成式 AI 时代下的数字虚拟人技术变革
新一代数据架构论坛
论题1:国产开源湖仓框架 LakeSoul 的设计理念和落地应用
论题2:StarRocks 3.0时代-湖仓融合探索与实践
论题3:Alluxio 编排和缓存,助力企业存算分离架构改造
论题4:Alluxio Local Cache for Presto on S3 at NewsBreak
湖仓一体落地实践论坛
议题1:百度图灵湖仓查询优化
议题2:腾讯游戏数据分析的湖仓一体化实践
议题3:纵腾湖仓全链路落地实践
议题4:JuiceFS 上的湖仓一体探索与实践
知识图谱最新实践论坛
议题1:蚂蚁大规模知识图谱构建及其应用
议题2:基于知识图谱的 AIGC
议题3:信息抽取和图谱问答技术概览
AIGC算法最新实践论坛
议题1:RWKV-次世代大语言模型的异质化路线
议题2:360 GPT 在业务场景的主要应用
议题3:OPPO 小布助手在 AIGC 上的探索
议题4:百度商业多模态理解及 AIGC 创新实践
DataOps与MLOps论坛
议题1:MLOps 在网络智能化领域落地实践
议题2:蚂蚁安全风控 MLOps 智能新范式下的布局与实践
议题3:中国平安人寿北斗 DataOps 平台最佳实践
议题4:面向百度商业数据产品的全流程 DataOps 实践
AB实验技术演进论坛
议题1:社交网络实验在微信实验平台的应用
议题2:水滴社交传播场景AB实验的实践
议题3:基于 AB 实验的边际 ROI 增长分析实践
议题4:传统视角下的AB实验与互联网实验平台演进
议题5:货运双边市场下AB实验分流算法实践
怎么干!冲向AI大潮的技术、产业应用与资本论坛
云原生大数据实践论坛
个人介绍:百度商业分布式存储平台、云原生PaaS平台负责人。本硕毕业于南京大学软件工程专业,先后参与了百度商业凤巢广告推荐系统,网盟广告推荐系统的研发工作,目前主要负责百度商业分布式KV存储平台和云原生PaaS平台的研发,推进了百度商业广告系统的云原生化架构演进。
演讲题目:百度商业广告系统百万容器云原生实践
演讲提纲:
随着业内各个云计算厂商的火热发展,云原生理念以及其背后一系列的开源组件和工具集也逐步被大家所熟知和认同,各个场景和业务争相"上云"。然而,对于已经在线上稳定运行多年的存量系统,上云不是目标,我们首先需要思考要解决的核心业务问题是什么,云原生能给业务带来哪些真正的价值,然后再结合符合云原生标准的理念和工具来构建出可落地的实施方案。如何管理和运维大规模多分片重存储服务一直是业内比较关注的一个方向。其中不仅涉及到服务的稳定性和运维效率,也需要解决分片间数据一致性和版本可用性的问题,同时还能够做到平滑无感知scale up/scale out。本演讲将结合百度商业分布式KV存储平台云原生化的工作实践,为你分享一个通用的多分片服务云原生化解决方案,支持多分片服务在稳定性/一致性/变更效率等方面所要求的全部特性,支撑存量服务平滑上云,目前已覆盖百度商业广告系统数千微服务,部署规模达百万容器。希望能通过本次分享,为大规模存量系统进行云原生架构变革的相关公司提供案例参考。
听众收益:
1. 了解分布式存储系统的平台化架构
2. 设计多分片服务云原生化解决方案
个人介绍:谢德军,MaxCompute SQL引擎技术负责人,深耕离线大数据SQL引擎领域14年。带领团队连续多年保持大数据领域权威Benchmark TPCx-BB世界第一,并且每年性能提升40%以上。通过持续对线上性能瓶颈做针对性的优化,MaxCompute SQL引擎的Adaptive能力做到了行业领先,也将MaxCompute Serverless能力提升到了一个新的台阶。
演讲题目:MaxCompute Serverless 架构演进
演讲提纲:
MaxCompute作为阿里云大数据核心自研产品,从第一天开始架构就完全面向云的特点来设计,是一个生在云上长在云上的产品。经过10多年的发展,MaxCompute相对于其他上云的产品在云原生、尤其是云原生的新范式Serverless方面有哪些特点那?本次分享会回顾MaxCompute的架构演进,介绍Serverless产品设计及背后的技术支撑,尤其是核心SQL引擎如何面向大数据场景独特挑战等。
听众收益:
1. 云原生大数据平台 MaxCompute 架构演进
2. Serverless 产品设计及背后的技术支撑
3. 自研 SQL 引擎如何面向大数据场景独特挑战
指标体系建设与实践论坛
个人介绍:小米数据中台部集团销服数仓负责人,专注数仓建设、指标体系建设等领域。
演讲题目:小米指标体系的建设及管理最佳实践
演讲提纲:
指标体系的建设和管理是数据仓库的核心内容之一。本次分享将从方法论出发,结合小米数据的实践经验,分享搭建、管理指标体系的最佳实践。
主要内容包括:
1. 指标体系概述:在复杂业务场景下,指标体系是决策的关键,针对小米业务场景,将通过阐述指标体系的重要性,带来指标体系概述。
2.业务痛点和指标体系的解决方式:这一部分,将分享小米在建设指标体系时所遇到的业务痛点,并深度解读指标体系解决问题的方式。
3.指标体系的搭建方法:深入探讨指标体系的搭建方法,重点介绍如何使用OSM模型建指标体系,以及如何在小米落地的过程中践行这一方法。
4.指标体系的管理最佳实践:本部分将介绍指标体系的管理最佳实践,包括统一流程、规范化、工具化管理指标体系,通过产品化方式管理指标体系,在业务系统、数仓、BI展示全链路。
5.总结与展望:对本次分享的内容简要总结,并对指标体系未来的演变方向展开一定的探讨和展望。
听众收益:
1. 方法论与最佳实践
2. 结合小米toB、ToC业务场景的指标体系建设实践
3. 指标体系全链路可视化的实现思路
个人介绍:2015年同济大学硕士毕业,8年大数据从业经历。先后在百度、vivo、腾讯负责数据研发和大数据平台建设,具备海量数据采集、存储、计算全链路平台化建设经验。目前在腾讯PCG大数据平台部负责指标中台建设。
演讲题目:tMetric-腾讯欧拉指标中台实践
演讲提纲:
伴随业务的高速发展,业务指标体系在快速迭代的过程中经常面临指标数据对不上、同名不同义、同义不同名等问题。 指标中台tMetric基于Headless BI理念,为业务提供标准化指标生产、统一服务等能力,实现指标的一处定义多处使用。
本次分享的主要内容包括:
1. 现状与问题分析
2. 设计思路及目标
3. 指标元数据管理
4. 统一查询服务
5. 业务效果
听众收益:
1. 如何标准化定义指标,解决指标同名不同义,同义不同名的问题
2. 如何做到指标设计即生产
3. 如何实现一处定义多处使用
个人介绍:目前负责数势科技数据资产云产品的研发,主要包括指标平台产品的设计、开发、测试、运营和迭代等。拥有15年+大数据研发、产品经验,是前京东大数据架构师,作为负责人,服务过沃尔玛、永辉等顶级企业的数据中台项目。
演讲题目:如何设计好的指标平台?
演讲提纲:
1. 指标平台出现的必然性:经营分析数字化程度与企业经营的长期业绩表现成正比,其核心是指标的管理和应用。
2. 以指标为中心的指标平台应当具备的特点:
· 指标定义规范化且加工门槛低
· 指标API标准且易配置
· 产品体验自助且高效
· 指标查询性能与安全性高
3. 好的指标平台产品的设计理念与核心功能
· 理念:一体、高效、联结
· 功能:指标定义、指标开发、指标管理、指标市场、指标应用与指标服务
4. 指标平台设计时应重点关注的三大核心难点与解决思路:
· 怎样提高指标开发的效率?
· 怎样提高使用指标进行数据查询的性能?
· 如何方便快捷的连接上下游?
5. 优秀的指标平台将为企业带来的核心价值聚焦组织效率和业务场景价值,赋能企业数字化经营:
· 价值之一:IT效能提升
· 价值之二:业务数据分析效率提升
· 价值之三:推动数字化基建走向成熟
听众收益:
1. 怎样提高使用指标进行数据查询的性能?
2. 好的指标平台设计应该满足什么业务要求?
3. 平台产品如何最大化指标价值,赋能上下游?
4. 指标平台作为主要的提效工具,企业如何选型?
因果推断算法应用论坛
个人介绍:罗文娟,博士毕业于中国科学院计算技术研究所,研究方向为文本挖掘。毕业后曾在美团从事用户增长相关算法优化,在滴滴担任资源分配业务负责人。加入快手后,主要工作内容为基于因果推断算法优化push效率提升push效果。读博和工作期间曾在ICDM,KDD,NIPS,Information Processing & Management , Knowledge Based System等顶级会议和期刊上发表多篇论文,并发表国际专利一项。
演讲题目:基于观测数据的因果推断技术
演讲提纲:
工业界的因果推断应用大多数场景下需要依赖于随机试验数据(random control),随机试验数据因为符合因果推断需要的一些完美假设,往往在落地中有非常好的效果。但是在实际业务中,我们往往囿于法律、法规、伦理、道德、公平性、成本等原因没有办法进行随机试验。虽然我们从实际的日志数据中,往往能收集到不少的观测性样本,但是这些观测性样本大多数情况下都是有偏的,存在非常多的混杂。本次分享主要是针对无法或者说仅能做有限的随机试验的情况下,我们怎么基于观测样本进行因果推断,帮助大家从算法和业务两个方向去更清晰地学习和落地因果推断技术,助力业务的发展。
主要内容包括:
1、观测性样本如何做deConfounding
2、观测性样本如何评估因果推断效果
听众收益:
、了解如何在无法进行随机试验的情况下怎么做因果推断
2、如何对观测性样本进行消偏
3、基于观测性样本进行因果推断的实践
个人介绍:硕士毕业于康奈尔大学统计系,目前就职于滴滴,主要负责因果推断方向的算法研究和业务落地工作。
演讲题目:基于业务先验知识的多维连续 Treatment 因果模型
演讲提纲:
1. 业务背景与应用
2. 问题定义与挑战
3. 多维连续 Treatment 因果模型探索与实践
4. 总结与讨论
听众收益:
1. 多维连续 Treatment 因果模型的已有研究进展
2. 业务先验知识对因果建模的重要作用
3. 如何在因果模型中引入业务先验知识
智能风控最新实践论坛
个人介绍:硕士毕业于北京航空航天大学,19年加入度小满,专注于nlp技术在金融风控领域的落地应用,利用大数据和AI算法提升金融科技能力。
演讲题目:NLP在风控中的应用
演讲提纲:
主要介绍NLP技术在风控业务上的应用,使用深度学习模型对非结构化数据和超长文本数据进行建模,将大模型预训练技术应用于风控实践;同时结合业务经验介绍一些模型轻量化部署经验,主要包括模型结构优化加速、多模融合和蒸馏压缩方法。
听众收益:
1. 超长文本数据如何建模,效果如何?
2. 通用预训练与领域预训练在风控实践上的差异?
3. 大模型如果进行轻量化部署?
个人介绍:博士毕业于 Ecole Centrale de Lyon,在 eBay 负责 Fraud Detection 相关的模型算法工作。
演讲题目:支付欺诈风控场景下对行为序列编码建模的探索(Behavior sequence embedding modeling explorations in transaction fraud detection)
演讲提纲:
1. Background introduction: a. general motivation of keep evolving the method of behavior sequence embedding in transaction fraud detection. b. some previous trials and emerging challenges.
2. Model introduction: a.what recent approaches have been exploring for domain modeling usage purpose. b. the ideas in the recent approaches to engage the challenges mentioned in background introduction.
3. Result analysis: a.brief results analysis according to the model introduced in real world data.
4. Related Engineering workflow
听众收益:
Some behavior modeling approaches considered the info of actual e-commerce risk domain as inductive bias.
个人介绍:赵有金(花名渊冰),蚂蚁集团安全科技商业化大数据团队负责人,在公共安全、反洗钱、风控等领域深耕多年,擅长通过建立体系化的数据指标,实现数据驱动业务增长。
演讲题目:基于指标特征的安全风险分析方法
演讲提纲:
1. 金融场景下风控面临的挑战
2.风控指标特征的构建思路与方法
○ 实时指标特征 ○ 离线指标特征 ○ 指标特征的计算调优 ○ 指标特征资产的构建
3.指标特征的应用效果4.未来风险识别方式的演进
听众收益:
1. 实时特征与批量特征结合,让黑灰产无所遁形
2. 如何进行指标特征的批量计算,节省50%以上的计算资源
3. 构建稳定的安全数据指标资产,助力安全业务降本增效
个人介绍:毕业于对外经济贸易大学,曾在宜信公司从事授信、反欺诈和催收相关风控模型工作。2021年加入京东科技,目前主要从事金融风控模型验证相关工作。
演讲题目:金融风控场景下的模型验证
演讲提纲:
1. 模型验证的背景和发展
2. 模型验证体系
3. 京东在验证工具领域的探索
4. 模型验证未来展望
听众收益:
1. 了解模型验证体系框架及建设思路;
2. 了解模型验证自动化方案;
OLAP发展趋势论坛
个人介绍:专注于分布式计算和存储,对 Spark 和 PostgreSQL 有深入研究。
演讲题目:StarRocks 助力携程报表查询极速化改造
演讲提纲:
1. 报表服务整体架构
2. 存在问题
3. StarRocks 特点
4. 整合 StarRocks 后的收益
5. 迁移中的问题及解决
听众收益:
1. StarRocks 加速报表查询
2. 如何快速迁移 Presto 查询到 StarRocks
3. 如何调优 StarRocks 查询
个人介绍:目前在哔哩哔哩OLAP平台,担任资深开发工程师,主要从事ClickHouse内核改造、性能调优等相关工作。在此之前,曾先后就职于宜信、好未来,深度参与或负责大数据平台组件的研发工作,具有五年大数据领域的开发和设计经验。
演讲题目:One size fits all: ClickHouse 在 B 站多种 OLAP 分析场景实践
演讲提纲:
主要分享B站如何使用ClickHouse支持多种OLAP分析场景的数据服务,把之前多个OLAP引擎统一收敛到ClickHouse,以及基于不同场景增强开源ClickHouse的实践经验。具体包括:
1.基于ClickHouse引擎,搭建新一代日志分析平台。
2.基于ClickHouse引擎,增强用户行为分析能力。
3.改造ClickHouse引擎,支持实时UPSERT分析场景。
听众收益:
1.日志迁移(Elasticsearch->ClickHouse)实践经验。
2.如何使用ClickHouse引擎,支持各种用户行为分析。
3.查询下推优化,复制表相关调度参数调优。
个人介绍:Flink/StarRocks Contributor,毕业后入职滴滴,先后参与滴滴实时计算引擎Flink、数据集成服务的建设,目前主要负责 OLAP引擎StarRocks的开发工作。
演讲题目:StarRocks物化视图在滴滴的实践
演讲提纲:
1. 背景介绍
· StarRocks在滴滴的发展历程· StarRocks物化视图的概念及优势
2. 物化视图在滴滴OLAP场景中的实践
· 同步物化视图的实践· 异步物化视图的实践
3. 总结与规划
· 物化视图的优势和局限
· 物化视图在数据分析中的重要性
· 未来发展方向与思考
听众收益:
1. 通过同步物化视图提升多维分析的查询性能2. 通过异步物化视图提升高基数精确去重实时看板性能
个人介绍:目前就职于字节跳动 ByteHouse 团队,负责混合负载相关工作。曾工作于华为、蚂蚁集团等,深耕大数据与云计算方向,对 Spark、Flink、Ray 等计算系统有深入研究。
演讲题目:ELT in ByteHouse: 实践与展望
演讲提纲:
当前 ByteHouse 在字节跳动有哪些使用场景和挑战?ByteHouse 在面临 ELT 负载时有何不足?我们做了哪些架构改进来提升 ByteHouse 的离线能力?未来的规划是怎么样的?将与你一起分享和探讨。
听众收益:
1. 了解 ByteHouse 在 ELT 方面的设计和实践
2. 了解为何使用 ByteHouse ELT 能力给业务带来的收益
3. 了解 ByeteHouse 未来的 ELT 规划
数据资产管理实践论坛
个人介绍:杭州电子科技大学本科,2013年加入网易,从0到1完成云音乐数据平台的搭建工作,目前是云音乐计算平台团队负责人,负责数据集成等平台工具的开发工作。
演讲题目:基于元数据构建智能化治理平台建设实践
演讲提纲:
1.云音乐数据平台规模和现状
2.治理平台的建设背景和目标
3.治理平台的设计和落地 · 整体架构设计和思考 · 元数据仓库设计 · 智能化规则执行 · 治理流程的闭环思考
4.治理平台的未来建设规划
听众收益:
1. 了解云音乐的数据平台的规模、现状、以及问题
2. 如果搭建灵活的扩展性强的数据治理平台
3. 了解治理平台的落地场景和未来走向
个人介绍:主要负责 Aloudata 技术战略规划及产品研发,曾担任蚂蚁集团数据平台主架构师、数据治理一号位、大数据安全合规技术负责人,拥有十余年大数据平台架构经验,在 EB 级金融数据平台基础架构、数据治理、隐私安全等多个领域有成熟实践并取得显著成效。
演讲题目:EB级数仓都在用的算子级血缘如何实现主动数据治理
演讲提纲:
1. Data Fabric 数据管理新范式:主动数据治理
2. 算子级血缘激活主动数据治理:让数据管理更精细、更智能
3. 基于算子级血缘在头部金融机构的主动数据治理实践
听众收益:
1. Data Fabric 中反复提及的主动元数据有哪些关键理念创新?
2. 元数据、血缘等平台能力应如何演进,以支撑数据治理从被动到主动的变革?
3. 将数据血缘解析到算子级精细度后,将给数据治理带来何种改变?
个人介绍:22年加入腾讯PCG大数据平台部任职数据工程T11工程师,主要负责PCG元数据建设(链路、血缘、热度、成本等),构建治理引擎(资产分体系、治理引擎)和构建大数据开发相关套件。曾任蚂蚁金服高级数据技术专家。蚂蚁流量效能实时数据团队负责人,负责整个蚂蚁实时流量、营销、商家、搜索推荐实时数据建设。数字金融线平台流量负责人,负责余额宝、基金、定期、内容离线以及实时数据体系建设。构建全蚂蚁的流量归因解决方案。负责推进数仓工具栈(元数据、DQC、血缘)在实时开发平台落地,以及实施任务的治理工作。
演讲题目:腾讯 PCG 数据治理体系
演讲提纲:
1. 元数据仓库建设
2. 治理项发现&资产分体系
3. 治理引擎
听众收益:
1. 如何基于图思想的元仓建设?
2. 如何进行资产价值评估?
3. 治理引擎如何帮助公司降低成本?
个人介绍:毕业后一直从事数据领域相关工作,从刚开始电信行业的传统数仓,到后面互联网行业的大数据平台,12年领域内从业经验。18年初加入阿里巴巴的口碑业务,现在在本地生活数据智能中心,负责本地生活的数据治理工作,包括数据资产管理、计算成本和运维。
演讲题目:阿里本地生活数据资产规范化建设实践
演讲提纲:
主要分享阿里巴巴本地生活数据智能中心在推进本地生活资产规范化建设过程中的一些经验总结。
内容主要分为3部分:
1. 资产规范化建设背景:介绍数据资产规范化建设的相关背景、挑战和目标。2. 规范化建设实践:介绍资产生产和管理架构、资产评估体系、资产运营方案,以及达成的效果等内容。
2. 未来规划:介绍我们对于资产规范化建设的一些总结思考,展望未来的演进方向,并在此基础上所做的后续规划。
听众收益:
1. 数仓规范如何落地与保障?
2. 资产质量如何评估?
3. 如何帮助数据消费者提升找数用数体验?
个人介绍:14年硕士毕业于南京信息工程大学,一直从事数据领域相关工作。18年加入滴滴,现任滴滴【数据平台与应用部-大数据资产平台】研发团队负责人,主要承担滴滴大数据治理相关工作。负责推动推动、落地相关治理能力栈(健康分模型,血缘,治理工作台等),进行大数据全域(Hadoop、ES、Flink、OLAP 等)治理。当前工作重心主要放在成本治理、安全治理等方面。
演讲题目:大数据成本治理
演讲提纲:
1. 滴滴大数据成本治理总体框架
2. Hadoop 成本治理在滴滴具体实践
3. 在治理工作中的总结思考
听众收益:
1. 如何设计大数据成本治理框架?
2. 如何进行 Hadoop 成本治理?
3. 在大数据成本治理会遇到的问题,及如何解决
大模型算法前沿应用论坛
个人介绍:吴俣,现任微软亚洲研究院自然语言计算组主管研究员。2014年获得北京航空航天大学计算机科学与技术学士学位,并同年参与北航-微软联合培养博士生项目攻读博士学位,导师为李舟军教授,于2019年6月获得博士学位。在ACL、EMNLP、NIPS和ICML等顶尖会议和期刊上发表了50余篇论文。并荣获多项奖项,包括微软奖学金、百度学术中国Top 50自然语言青年研究员、InterSpeech最佳学生论文提名等。其代表作品VALL-E被Netexplo Observatory评选为2022年世界十大科技创新。目前,研究方向为聊天机器人,语音识别,以及预训练技术。
演讲题目:语音大模型技术进展
演讲提纲:
1. 有监督语音模型进展
2. 自监督语音模型进展
3. 未来展望
听众收益:
1. 如何训练百万小时语音合成/识别模型
2. 语音预训练模型的价值
3. 对已有工作缺点的总结和未来工作展望
个人介绍:林俊旸,阿里巴巴达摩院高级算法专家,毕业于北京大学。他的研究领域包括自然语言处理和多模态表示学习,研究兴趣集中于大规模语言模型和多模态大模型,曾在多个顶级会议发表多篇论文,引用量1900+。他曾负责打造超大规模多模态预训练模型M6,通用统一多模态预训练模型OFA,中文预训练模型Chinese CLIP等,推动大模型开源开放及落地应用。
演讲题目:通义千问模型及服务
演讲提纲:
本演讲将介绍阿里达摩院大模型通义千问的技术和服务应用,其中包括:
1. 当前全球大模型发展的背景及其对学界和业界的影响;
2. 阿里达摩院大模型通义千问的技术特点和实现方案
3. 通义千问的模型服务及应用场景
听众收益:
1. 以阿里达摩院大模型为代表的国内大模型技术进展
2. 大规模语言模型和多模态模型的技术实现
3. 大模型的应用方法与场景
个人介绍:北京大学本硕。曾任职英特尔、爱奇艺,Intel 显卡虚拟化早期开源作者;后任明略科技技术合伙人,技术中心NLP高级架构师、高级技术总监;现在为分贝通公司 NLP 算法负责人。
演讲题目:分贝通基于大模型的创新应用
演讲提纲:
介绍分贝通如何基于大模型快速驱动数智化、智能化,并在内部与外部进行落地实践。分为背景介绍、技术与算法架构、应用举例、未来展望等。
听众收益:
1. 如何将大模型全面运用于企业内外部进行快速的效率提升
2. 如何基于大模型打造企业的智能底座
3. 以上两点实践中遇到的挑战与解决思路分享
推荐算法最新实践论坛
个人介绍:研究生毕业于北京邮电大学,毕业后就一直在百度商业方向工作。在凤巢做了两年半的搜索广告,之后在信息流场景上做了两年半的推荐广告,现在主要负责百度电商广告推荐策略。
演讲题目:超大图模型在推荐广告系统中的应用
演讲提纲:
1. 超大图模型背景
2. 超大图模型在百度电商行业的研发进展
2.1 超大图的训练
2.2 召回应用策略
2.3 排序应用策略
3. Q&A
听众收益:
1. 超大图模型的意义和优势
2. 多类型和多场景的图训练方法
3. 图模型的场景应用
个人介绍:本硕就读于北京理工大学,先后任职于网易、快手、腾讯音乐,目前主要负责全民K歌的推荐业务,致力于融合短视频消费与社交关系链的融合推荐。
演讲题目:社交推荐在全民K歌的实践
演讲提纲:
本presentation聚焦于解构社交推荐方法论,及在全民K歌的落地实践。
1. 信息流推荐和社交推荐的异同
2. 社交推荐通路构建
3. 全民K歌的社交推荐实践
听众收益:
1. 如何去理解社交推荐,和抖/快的信息流推荐有何区别?
2. 如何去构建一个面向社交互动的推荐逻辑?
3. 构建社交推荐的实践经验
个人介绍:阿里巴巴高级算法专家,硕士毕业于中国科学院大学。一直从事于搜索推荐等相关技术研究,将先进技术落地于平台和产品,多项研究成果发表在IJCAI/ICDE等学术会议。目前在淘宝直播负责搜索、营销等相关算法技术。
演讲题目:淘宝直播搜索算法思考与演进
演讲提纲:
基于淘宝直播搜索的内容实时化、意图多元化和物料异构化的特点,介绍了搜索算法在技术的迭代与创新。
听众收益:
1. 直播搜索算法的全链路实时化
2. 直播搜索多元意图的识别与应用
3. 直播搜索异构物料的统一建模与实践
个人介绍:硕士毕业于清华大学,曾在美团、猿辅导从事模型优化的工作。目前在快手商业化算法部,主要负责模型训练基础设施建设方面的工作,主要擅长领域包括稀疏模型分布式训练、特征提取框架。
演讲题目:基于语法树的广告模型特征提取框架
演讲提纲:
1. 为广告模型特征提取定制 DSL,简单易用,扩展灵活
2. 特征提取数据与计算逻辑解耦,计算逻辑实现算子化,方便进行更灵活的组合
3. 以特征 AST 为核心,算法使用与底层实现解耦,方便进行工程优化与扩展
4. 掌握特征提取所有细节,在代码层面理解特征,为算法使用提供更多业务价值
5. 从零开始实现完整的 DSL,针对不同场景可以轻松扩展
听众收益:
1. 如何将模型特征标准化,高效产生所需特征
2. 如何将算法同学使用特征与底层实现解耦,方便进行工程优化与升级
3. 如何实现一门 DSL 语言,包括 lexer、ast 等核心模块,并与实际场景相结合
圆桌讨论:大模型商业化的能与不能
国产数据库创新变革论坛
个人介绍:国强2013年毕业即加入百度,主要负责商业平台存储方向。所负责的BaikalDB具有高弹性,高吞吐,高易用,低成本的特性,在过去几年把商业平台广告库和十几个辅助存储都统一到BaikalDB。
演讲题目:BaikalDB 在凤巢广告库的应用
演讲提纲:
主要介绍商业平台广告库的架构演进,分布式数据库和分库分表的核心差异,BaikalDB的核心设计点,广告库不停机无损迁移的方案。
听众收益:
1. 商业平台广告库的 10 年架构演进
2. 如何做到业务无感不停机替换数据库
3. BaikalDB 的若干核心设计点
个人介绍:在抖音向量检索数据库团队负责向量检索引擎开发。
演讲题目:云原生向量数据库的发展和展望
演讲提纲:
本次分享主要介绍云原生向量数据库的发展和展望,结合行业实践,向听众介绍从向量数据库的基础概念到最新进展的相关技术知识。
主要内容包括:
1. 非结构化信息与向量检索
2. 云原生向量数据库技术
a. 当前主流架构演进,和传统数据库的对比
b. ANN索引技术(索引设计、量化、调优)
c. 海量数据索引的存算分离架构d. 索引和实时更新技术
3. 向量数据库发展展望
a. 硬件加速计算
b. 非结构化和结构化信息融合(过滤)
c. Hybrid Search 混合向量检索d. 大模型时代的向量数据库
听众收益:
1. 向量数据库的概念、应用场景、技术挑战、变化趋势
2. 向量数据库行业实践和当前最新技术趋势
3. 向量数据库的变迁和未来方向的思考
个人介绍:李宏基毕业于同济大学,一直从事软件研发相关的工作。工作的前十年在两家外企Autodesk和Splunk,其中Splunk是一家专门做大数据分析的公司,可能熟悉大数据领域的小伙伴有听过这家公司,Splunk也是比较早的主打读时建模技术的公司。在2020年的夏天,我们一些志同道合的小伙伴就一起从Splunk出来创业了,成立了炎凰数据。我目前在炎凰主要在前端领域,做前端框架和功能页面开发的工作。
演讲题目:异构日志可视化在国产数据平台的探索与实践
演讲提纲:
本次分享先从日志分析领域的技术痛点和读时建模的核心技术理念出发,引出以异构数据搜索引擎为技术特色的国产时序文本数据库-炎凰数据平台,分析并介绍炎凰数据平台的数据存储以及数据查询。接下来会继续介绍基于echarts的平台数据可视化,以及通过实例进一步展示了如何进行数据分析,最后使用分析结果构建各种类型的图表和可视化效果。
听众收益:
1. 读时建模技术的特点和优势场景,及其在日志分析场景的落地
2. 数据可视化面临的技术挑战以及数据可视化的适配方案
3. 数据可视化方案的落地和应用实践
个人介绍:10年全职DBA,目前在公司负责数据库产品内核设计。
演讲题目:MatrixOne: 从 NewSQL 到全新的 HTAP 分布式架构变革与创新
演讲提纲:
MatrixOne的早期版本(0.4之前),使用的是NewSQL的架构,自0.5之后,研发团队对分布式的计算与存储引擎均进行了架构升级。在新的架构下,实现了存算分离加上三层解耦的架构,确保系统具备足够的能力来平衡和优化工作负载和冲突,更好地适应了各类HTAP场景下的分布式数据库需求。
听众收益:
1. 通过 MatrixOne 的架构变化,了解分布式数据库的发展趋势
2. 对当前 MatrixOne 的HTAP新架构的更多了解
3. MatrixOne 在解决架构演进中的遇到困难,给予了研发团队哪些启发和成长
图机器学习应用论坛
个人介绍:中国人民大学高瓴人工智能学院助理教授、博导。曾在清华大学智能产业研究院担任助理研究员,腾讯AI Lab担任高级研究员。研究方向包括几何机器学习理论方法,及其在智能药物发现、物理场景理解与生成、智能体感知与决策等跨领域任务上的应用。代表性工作包括:训练深度图神经网络的方法DropEdge;面向大规模图的图神经网络高效训练方法AS-GCN;针对抗体生成的多通道等变注意力网络MEAN。曾获ICLR 2023 杰出论文提名奖,NeurIPS 2022 Open Catalyst 比赛冠军、IROS 2020 OCRTOC 机器人比赛季军、腾讯犀牛鸟专项研究卓越奖、NeurIPS Outstanding Reviewer等奖项。
演讲题目:面向物理空间的几何图神经网络设计
演讲提纲:物理世界中的分子、蛋白质、晶体、宏观物理系统等,均具有特定的空间几何结构,构成了一类重要的数据形态——几何图。与社交网络中的拓扑图不同,几何图中的节点占据了一定的空间位置,需要满足某些内蕴的物理性质,比如对称性,导致传统的图神经网络难以处理几何图。近年来,等变图神经网络由于有效嵌入了对称性,具有良好的解释性、泛化性和通用性,在分子系统表示上得到了广泛应用。本报告将梳理等变图神经网络的发展概况,并且介绍课题组近期在分子动力学模拟、小分子生成、抗体设计与优化、多物体交互、智能体行为控制等重要任务上的应用情况。
听众收益:
1.了解几何图、几何图神经网络的基本概念和典型模型;
2.了解几何图神经网络在AI for Science和具身智能等跨领域任务上的应用。
个人介绍:张子威,现为清华大学计算机系博士后,本科毕业于清华大学数理基科班,博士毕业于清华大学计算机系。主要研究方向为图机器学习,包括图表征学习、图神经网络、自动图学习等。在国际顶级会议与期刊发表论文30余篇,谷歌学术引用超过3000次。曾入选博士后创新人才支持计划,获得吴文俊人工智能优秀博士学位论文提名、清华大学优秀博士毕业生、百度AI华人新星百强榜单、AI 2000学者榜单等。
演讲题目:自动图机器学习
演讲提纲:
图神经网络已成为图机器学习的最有效范式。自动图机器学习,旨在利用自动机器学习(AutoML)技术自动化图神经网络的模型设计,近年来取得了关注,并显著增强了图神经网络处理不同图数据与图任务的自适应能力。本次报告将会分享我们在自动图机器学习,特别是图神经架构搜索(Graph Neural Architecture Search)上的一些近期工作,包括:
1. 图结构感知与针对动态异构图的图神经架构搜索,以有效建模图结构
2. 超大规模图神经架构搜索,将单机可处理图数据规模提升至亿级
3. 分布外泛化和对抗鲁棒的图神经架构搜索,增强图神经网络的自适应能力
4. 首个自动图学习开源工具包 AutoGL 和图神经架构搜索基准测试集 NAS-Bench-Graph
听众收益:
1. 如何自动设计最优的图神经网络模型?
2. 如何单机上进行亿规模图的架构搜索?
3. 如何用10行代码实现图自动机器学习?
数字人与XR互动论坛
个人介绍:赵中州,阿里巴巴达摩院高级算法专家,哈工大本硕、帕维亚大学计算机硕士。十余年人机交互领域经验,阿里小蜜家族核心初创成员。目前负责达摩院数字人互动算法,带领团队先后打造了业界首个超过真人转化的电商虚拟主播、首个支持识别与合成双向交互的手语数字人等产品,目前关注数字人多模态交互、情感计算、认知推理等技术领域,以技术创新推动体验升级和业务规模化发展。
演讲题目:从Avatar到AI Being, 数字人类人互动的演进之路
演讲提纲:
数字人随着技术的持续创新与应用场景的丰富,逐渐从形象化身(Avatar)进化为具备智能与类人交互能力的数智人(AI Being),这背后需要解决实时交互、情感计算、人格模拟、个性表达等多种挑战,本次分享将围绕这些挑战带来相关的技术探索与实践,并展望在LLM加持下的数字人能力发展趋势。
内容大纲:
1、数字人技术发展、应用及挑战速览
2、实时双工交互,打破数字人互动的延迟屏障
3、情感与认知计算,构建数字人的类人大脑
4、统一人格表示,驱动数字人多模个性化表达
5、LLM加持下的数字人AGI之路
听众收益:
1.了解数字人发展现状及应用
2.了解全双工交互的技术原理及实践
3.了解情感与人格计算的技术原理及实践
4.了解LLM在数字人上的技术融合及演进趋势
个人介绍:网易伏羲虚拟人首席专家, 长期专注于虚拟人研究和应用工作。工作成果应用于网易在线游戏,在线教育产品,多地展厅和文旅景点数字化改造项目;发表学术论文50余篇(包括CCF A类顶级会议论文及期刊30余篇);连续三届获得图像视觉顶会(ICCV2021, CVPR2022-2023)人脸表情感知国际挑战赛(ABAW)双赛道冠军;首创135种表情划分标准。
演讲题目:语音驱动表情合成技术前沿进展
演讲提纲:随着人工智能技术的发展,虚拟人驱动技术已经成为学术界和产业界高度关注的领域,近年来也取得了快速进展。本次交流聚焦于语音生成表情技术,即利用说话语音作为输入生成说话人的面部视频,包括2D像素级视频合成和3D表情动画合成,涉及口型合成、眉眼合成和头部姿态运动等方面。该课题的意义在于基于深度学习技术自动合成视频内容,无需依赖于动捕设备捕捉面部动画和视频录制设备。
本次交流将尝试阐明以下几个问题:
1. 为什么听觉信号能够传达细腻的视觉表情?
2. 当前学术界和产业界在语音生成表情技术方面都取得了哪些进展和异同点?
3. 当前前沿技术的研究热点和难点。
听众收益:
1. 了解当前语音生成表情技术的前沿研究和应用现状;
2. 了解不同算法和技术的优缺点,以及在实际应用中的适用范围和局限性。
个人介绍:毕业于清华大学,在视频+人工智能和XR领域有超过10年的经验。曾在华为和腾讯负责创新技术研发工作,目前在快手领导团队开发3D数字人解决方案和虚拟世界互动平台。
演讲题目:快手 3D 数字人直播与互动解决方案
演讲提纲:
快手围绕3D数字人开播及互动落地,在直播、社交等领域进行了系列实践,背后来自3D数字人开播互动技术方案的强大支撑—— 快手虚拟演播解决方案KVSS(Kuaishou Virtual Studio Solution ), 为此快手建设了虚拟世界互动平台(Kuaishou Metaverse Interactive Platform,简称KMIP),基于 PAAS 技术基础支撑各种应用场景。在本次分享中,我们将介绍快手 KVSS解决方案的架构,并分享如何接入快手虚拟世界应用生态,与数亿用户一起共拓元宇宙应用市场
主要内容包括:
1. 快手 3D 数字人案例,解决方案综述
2. 快手 3D 数字人开播技术:建模、驱动等
3. 快手 3D 数字人互动技术:游戏化 & 开放平台
4. 总结与展望
听众收益:
1. 了解 3D 数字人的技术原理和如何直播
2. 了解 3D 数字人互动和游戏技术的关联拓展
3. 了解目前直播间互动游戏化的案例和未来元宇宙直播间的可能形态
个人介绍:何展,NVIDIA中国区Omniverse业务负责人,毕业于南开大学,曾就职于Autodesk,SAP,GE Digital等公司负责市场以及ToB战略咨询以及管理业务,目前就职于NVIDIA,负责中国区Omniverse 和RTX企业级产品线在中国区域的业务拓展工作,对AI、机器学习以及深度学习有资深的经历和见解,目前专注在推广数字孪生在工业行业的AI应用、AI数字虚拟人、数字资产创建、生成式AI等落地应用上。
演讲题目:LLM和生成式AI时代下的数字虚拟人技术变革
演讲提纲:
在大规模语言模型和生成式AI技术背景下,如何帮助数字虚拟人创作者提升生产力是所有人都关注的话题,哪些技术赋能行业数字虚拟人创建,同时计算机视觉、计算机图形学、物理引擎模拟、AI、XR以及云原生等技术如何相互融合,演讲中会给大家分享NVIDIA英伟达在这些方面的理解。
新一代数据架构论坛
个人介绍:硕士毕业于中科院计算所,后就职于阿里巴巴,负责集团超大规模分布式模型训练平台的研发工作,支撑了阿里妈妈广告、手机淘宝推荐、蚂蚁芝麻信用分等多个核心业务线的算法模型落地。2018年加入汇量科技,担任平台架构师,负责全公司大数据、AI平台的架构研发工作。现任北京数元灵科技有限公司CTO,推进国产湖仓数据智能平台的研发和落地应用。
演讲题目:国产开源湖仓框架 LakeSoul 的设计理念和落地应用
演讲提纲:
1. LakeSoul 开源框架的设计理念和技术原理解读
2. LakeSoul 的核心优势
3. LakeSoul 在实时数仓、实时机器学习等场景的应用
4. LakeSoul 进入 Linux 基金会后的开源社区进展和规划
听众收益:
1. 当前湖仓一体架构还存在哪些问题,LakeSoul 是如何解决的?
2. LakeSoul 湖仓框架有哪些独特的设计理念?
3. LakeSoul 是怎样支持实时数仓、实时机器学习等应用场景?
个人介绍:谢寅,镜舟科技首席解决方案架构师。曾供职于 CBS Interactive、PerfectWorld、ChinaCache 等企业,具有多年大数据开发经验,致力于持续迭代完善基于实时数仓、自助式分析、绩效分析、湖仓融合联邦分析等金融类业务场景的联合解决方案。
演讲题目:StarRocks 实现湖仓融合的方式与实践
演讲提纲:
1. StarRocks 3.0 存算分离的价值与性能
2. StarRocks 湖仓融合一体化能力解析
3. 落地应用讲解与实践案例分享
听众收益:
1. 前沿的大数据技术架构
2. 湖仓融合痛点的应对方法
3. StarRocks 3.0 技术揭秘
个人介绍:耿云涛,Alluxio解决方案架构师,十余年大数据相关的产品研发、解决方案和项目实践经验,对于企业级的数据仓库、数据平台、数据中台建设拥有深入的认知和丰富的实践经验。
演讲题目:Alluxio 编排和缓存,助力企业存算分离架构改造
演讲提纲:
1. 存算分离架构的收益和挑战
2. Alluxio 产品能力介绍
3. Alluxio 如何助力解决存算分离架构下的各种挑战
听众收益:
1. 认识存算分离架构下可能面临的问题和挑战:统一接口、统一安全、网络带宽负载、计算性能、数据迁移……
2. 如何利用 Alluxio 协助解决存算分离架构下遇到的问题和挑战
个人介绍:architect @ NewsBreak,负责云原生数据平台的建设和技术演进。ex-engineer @ FreeWheel,负责分析型数据平台和数据产品构建。
演讲题目:Alluxio Local Cache for Presto on S3 at NewsBreak
演讲提纲:云原生的数据平台架构下,数据量和使用量伴随着业务成不断增长和发展,性能和成本逐渐成为一个孪生的重点。在 Presto + S3 的 lakehouse 架构下,我们通过分析数据分布和使用特征,从常规的数据优化,到后来引入 Alluxio Local Cache,达到一个阶段性的性能和成本的平衡。
听众收益:
1. Alluxio Local Cache 的一些实践
2. 如何加速 Presto on S
3.的同时降低成本
湖仓一体落地实践论坛
个人介绍:2015年硕士毕业北京邮电大学,同年加入百度,先后负责百度商业广告体系产品报表、商业分析体系、客户报表、图灵数据平台等工作。图灵实时数据分析平台将百TB大数据查询场景平均耗时降至秒级,助力百度商业数据分析效率提升30余倍。高查询效率,高基础数据时效性让图灵平台成为商业业务数据分析的首选,为业务高速迭代做出巨大贡献。图灵平台先后丰富了数据集成、数据例行加工能周边能力,凭借强大的功能及优越性能,图灵平台从服务商业业务场景逐渐拓展至搜索、feed、百度APP等商业外多个业务线,成长为百度MEG体系最受欢迎的数据分析平台。
演讲题目:百度图灵湖仓查询优化
演讲提纲:
百度商业体系广告是一个强数据驱动的业务系统,对快速的数据分析查询的诉求十分强烈。同时,一个广告数据的应用场景极其多样,有面向数据分析师使用的长时间窗内多维的业务数据指标分析,有面向RD进行系统诊断、策略调优的Trace类分析,有面向QA&RD使用的常态监控数据查询需求。多样的场景、复杂的日志构成、用户对查询效率的更高诉求,在过去几年中催动着图灵平台不断进化。过去几年,图灵数据分析平台在数据建模优化、查询多引擎使用,智能调优等多个方面完成诸多卓有成效的工作。
主要内容包括:
1. 百度商业数据分析业务介绍
2. 图灵的数据分析挑战
3. 百度商业湖仓数据建模介绍(扁平分层与面向使用频次优化的加速数据层)
4. 图灵数据分析的架构选择
5. 图灵智能查询分发
6. 图灵智能调优(APM+optimizer)
听众收益:
1. 如果建设一个高效的湖仓数据模型?
2. 什么是一个好的数据分析引擎?
3. 如何通过智能调参,实现提速30%
个人介绍:2015年硕士毕业北京邮电大学,同年加入百度,先后负责百度商业广告体系产品报表、商业分析体系、客户报表、图灵数据平台等工作。图灵实时数据分析平台将百TB大数据查询场景平均耗时降至秒级,助力百度商业数据分析效率提升30余倍。高查询效率,高基础数据时效性让图灵平台成为商业业务数据分析的首选,为业务高速迭代做出巨大贡献。图灵平台先后丰富了数据集成、数据例行加工能周边能力,凭借强大的功能及优越性能,图灵平台从服务商业业务场景逐渐拓展至搜索、feed、百度APP等商业外多个业务线,成长为百度MEG体系最受欢迎的数据分析平台。
演讲题目:百度图灵湖仓查询优化
演讲提纲:
百度商业体系广告是一个强数据驱动的业务系统,对快速的数据分析查询的诉求十分强烈。同时,一个广告数据的应用场景极其多样,有面向数据分析师使用的长时间窗内多维的业务数据指标分析,有面向RD进行系统诊断、策略调优的Trace类分析,有面向QA&RD使用的常态监控数据查询需求。多样的场景、复杂的日志构成、用户对查询效率的更高诉求,在过去几年中催动着图灵平台不断进化。过去几年,图灵数据分析平台在数据建模优化、查询多引擎使用,智能调优等多个方面完成诸多卓有成效的工作。
主要内容包括:
1. 百度商业数据分析业务介绍
2. 图灵的数据分析挑战
3. 百度商业湖仓数据建模介绍(扁平分层与面向使用频次优化的加速数据层)
4. 图灵数据分析的架构选择
5. 图灵智能查询分发
6. 图灵智能调优(APM+optimizer)
听众收益:
1. 如果建设一个高效的湖仓数据模型?
2. 什么是一个好的数据分析引擎?
3. 如何通过智能调参,实现提速30%
个人介绍:10多年大数据相关经验。主要从事大数据架构开发调优,目前从事数据湖落地事宜。
演讲题目:纵腾湖仓全链路落地实践
演讲提纲:
1. 总体架构
2. 入湖方案选型
3. 实时入湖优化
4. 数据湖上的查询
听众收益:
1. 如何选择合适入湖方案
2. 如何优化实时入湖
3. 数据湖上的查询方案
个人介绍:我是 Juicedata 合伙人苏锐,作为 1 号成员参与创建云原生分布式文件系统 JuiceFS,先通过全球公有云上的 SaaS 产品获得国内外几十家商业客户。之后于 2021 年 1 月 JuiceFS 开源,经过两年的社区发展,在 GitHub 上获得 8000 多星,每天有数千活跃集群,是这两年全球发展最快的文件存储项目之一。苏锐在加入 Juicedata 前,历任 O2O 汽车服务品牌功夫洗车创始人 & CEO,豆瓣电影 PM & Tech Lead,公益组织多背一公斤和傲游浏览器的创始团队成员。
演讲题目:JuiceFS 上的湖仓一体探索与实践
演讲提纲:数据仓库、数据湖、湖仓一体,新的概念层出不穷,它们之间有什么关系?是渐进式迭代还是颠覆式创新?在 AI 浪潮下又有何发展?本次演讲为各位介绍 JuiceFS 在大数据生态和湖仓一体架构下的探索和用户案例实践。
具体内容包括:
1. 数据湖和湖仓一体中不同存储系统的优劣势
2. 为什么要做 JuiceFS,以及架构设计理念
3. JuiceFS 在湖仓一体架构中的作用
4. 用户案例分享
5. AI 对数据湖、湖仓一体的影响
听众收益:
1. 比较数据湖存储方案,了解优劣势
2. 从要解决的问题出发,了解 JuiceFS 的设计理念与过程
3. 了解用户在 JuiceFS 上的湖仓一体实践
知识图谱最新实践论坛
个人介绍:胡炎根,美团语音交互部对话机器人方向算法负责人,负责文本、外呼机器人的建设。有超过12年的NLP相关学习、工作经历,具体方向包括知识图谱、对话系统构建等。
演讲题目:大模型智能问答技术在美团对话机器人中的探索与实践
演讲提纲:
1. 对话系统简介
2. 传统 KBQA、FAQ、DocQA 等智能问答技术介绍
3. 基于大模型的智能问答技术介绍
听众收益:
1. 对话机器人的基础原理
2. 大模型下如何高效构建智能问答系统
个人介绍:博士毕业于中国科学院自动化研究所,研究方向是自然语言处理、自动文摘和文本生成,在TKDE、TASLP、TALLIP、ACL、EMNLP、COLING、AAAI和IJCAI等国内外期刊杂志发表论文20余篇。现任京东科技智能服务与产品部AIGC方向算法负责人,利用可控文本生成算法,生成的商品文案的曝光点击率比专业写手高40%,提高客服咨询转化率5%,累积引单额超3亿,降低商品文案创作成本90%以上。
演讲题目:基于知识图谱的 AIGC
演讲提纲:
知识图谱蕴含着丰富的人类知识,为机器实现认知智能提供了重要指导;AIGC旨在自动生成流畅合法的文本,是人类与机器沟通的桥梁。借助知识图谱的力量,对AIGC进行指导和规范,是实现可控AIGC重要途径。本次报告将分享京东科技NLP团队在基于知识图谱的AIGC方向上的实践经验。具体包括:
1. 基于电商知识图谱的AIGC
2. 基于通用知识图谱的AIGC
3. 基于知识图谱的生成式预训练模型
听众收益:
1. 了解基于知识图谱的 AIGC 前沿技术、研究动态等
2. 了解 AIGC 技术在电商领域的落地场景、面临的挑战、成功应用的经验及未来的机会
3. 为业内提供 AIGC 新思路
个人介绍:代文,小米AI实验室NLP组智能问答业务负责人,2015年博士毕业于中科院自动化所。目前负责小爱同学产品的智能问答系统研发,研究方向包括图谱问答、检索问答、意图理解等,具有丰富的NLP工作经验。
演讲题目:信息抽取和图谱问答技术概览
演讲提纲:
1. 介绍信息抽取相关技术流派
2. 介绍图谱问答主要算法模型及应用
3. 介绍智能问答系统及产品
听众收益:
1. 信息抽取方法有哪些,各自优劣如何?
2. 前沿图谱算法有哪些,在产品中如何应用?
AIGC算法最新实践论坛
个人介绍:前字节技术产品,曾任算法中台负责,AI creator创始人,AI hackathon冠军,持续创业者,武汉大学。
演讲题目:RWKV-次世代大语言模型的异质化路线
演讲提纲:
探讨RWKV大语言模型的过去现在和未来。
听众收益:
什么是全球唯一RNN架构大语言模型RWKV。
个人介绍:贾守盛,360高级算法研究员,NLP部以及大模型算法负责人,主要从事搜索query分析,搜索推荐,LLM等算法研发工作。带领360搜索nlp团队率先在2019年大规模落地bert等预训练模型,2023年带领团队从0到1开发了360GPT模型,目前已应用在搜索,浏览器,数字人,知识问题,广告创意生成等领域中。
演讲题目:360 GPT 在业务场景的主要应用
演讲提纲:
1. 360 GPT 模型介绍
2. 360 GPT 在搜索场景上的应用
3. 360 GPT 在数字人方面的应用
听众收益:
1. LLM 和向量检索在多轮对话时如何更好的融合
2. 360 GPT 在数字人方面如何产生更好的应用效果
个人介绍:硕士,17年加入百度,负责商业策略中台与AIGC相关技术。在文、图、视频、落地页等多模态理解、生成方面,突破了多项复杂技术问题,广泛提升了公司系统模型对富媒体内容的高阶认知和常识推理的能力,大幅提升了公司商业系统的变现效果。主持的项目多次获得公司及部门奖励,其中多模态理解项目-“视界”项目获得百度2021年最高奖Top8。近年来个人提出的多项核心算法,被KDD、SIGIR、EMNLP、CIKM等国际顶级会议所接收,总计发表论文10+篇。
演讲题目:百度商业多模态理解及 AIGC 创新实践
演讲提纲:
该演讲内容主要介绍百度商业策略研发在多模态内容理解及AIGC上的创新实践与技术成果。主要从基础模型建设,商业检索系统中场景化建模方案,以及相关技术的业务成果呈现。
听众收益:
1. 基础表征性能优异,在域内数据+公开图文数据集中有明显优势,并提出了一种基础表征的场景化牵引学习方案;
2. 提出了多尺度、多层级的内容表征量化算法,进一步提升内容特征与商业大规模离散信号的融合能力;
3. 提出了一种不同模态内容消息传递的图神经网络,通过模态分层与层内、层间对比学习,提升不同模态内容在推荐场景的召回能力;
4. 提出了一种表征+生成学习相结合的多模态扩散模型,显著提升 AIGC 生成质量。
DataOps与MLOps论坛
个人介绍:2010年硕士毕业于中南大学计算机科学与技术专业,十余年软件开发、架构和团队管理经验。前中兴通讯研发团队负责人、敏捷技术教练,前thoughtworks高级咨询师。现在就职于中国移动通信有限公司研究院,负责九天网络智能化平台产品研发。
演讲题目:MLOPS 在网络智能化领域落地
演讲提纲:
1. 九天网络智能化平台产品简介
2. 为何在产品中引入 MLOPS
3. MLOPS 在产品中落地实践
听众收益:
1. 如何解决 AI 工程化落地难的问题
2. MLOPS 模型封装环节技术选型
3. MLOPS 模型监控环节技术选型
个人介绍:付大鹏,蚂蚁集团安全AI工程架构师。毕业于复旦大学,主要从事蚂蚁安全智能风控博弈平台、可信AI检测平台和安全多方风控平台建设,曾参与蚂蚁集团第五代智能风控引擎AlphaRisk的建设和信通院MLOps、大模型、智能风控等多项标准的编制工作,获得中国人工智能产业发展联盟(AIIA)和人工智能关键技术和应用评测重点实验室联合颁发的“2022年突出贡献个人”荣誉称号。
演讲题目:蚂蚁安全风控 MLOps 智能新范式下的布局与实践
演讲提纲:
随着近些年人工智能的快速发展,人工智能依托大数据、云计算成为风控领域的核心能力,需要具有对风险的快速响应和攻防能力,不断应对黑灰产的攻击。构建可监控、可持续迭代、规模化、自动化的机器学习链路和智能风控平台,以高效敏捷的方式应对风险形势和作案手法变化,对风控的动态攻防能力有着极其重大的意义。从蚂蚁安全风控场景出发,介绍蚂蚁安全风控MLOps建设面临的主要挑战、整体架构,及数据研发、模型监控、持续训练、自动模型测评、持续部署、平台可信等各模块的方案和思路,并对大模型带来的变化和工程落地进行阐述。
听众收益:
1. 如何构建安全风控领域的 MLOps 系统
2. 如何对模型质量进行评估
3. 如何对线上模型监控
4. 如何进行持续训练
5. 如何构建 AI 平台可信能力
个人介绍:12年大数据领域从业经验,熟悉DAMA数据管理及一定的实战经验,并具有CDGA认证证书,有丰富的大数据基础技术、大数据平台、数仓架构、数据研发平台建设经验,目前担任中国平安人寿数据管理团队技术组分组经理,负责大数据技术架构及DataOPS平台研发工作。
演讲题目:中国平安人寿北斗 DataOps 平台最佳实践
演讲提纲:
中国平安人寿通过研发一体化北斗 DataOps 平台(包含联邦式数据治理体系、数据研发管理体系、“设计即开发”DataOps工具三部分)解决方法论缺失 、烟囱式数据建设、缺乏工具三大数据建设难题,为保险企业提供一套体系化、可落地、成本可控的数据建设方案。
主要内容包括:
1. 北斗 DataOps 平台建设总体目标
2. 数据治理建设
3. 数据研发管理(角色、规范、标准、流程)
4. 平台工具体系建设
听众收益:
1. 如何结合 DAMA 与企业的实际制定数据研发流程规范
2. 落地的思路与难点是什么3. 平台工具应该具备什么能力
个人介绍:2014 年加入百度,现任商业平台部资深研发工程师,商业体系平台工程团队大数据方向 leader,百度商业大数据 LKT 成员。主要负责面向商业数据产品的大数据基建和应用架构工作,曾主导离线环境全面 Serverless 化改造,拥有数据治理领域十余项发明专利,对构建智能化 DataOps 大数据系统、保障复杂业务数据链路时效性与稳定性方面具有丰富经验。
AB实验技术演进论坛
个人介绍:博士毕业于新加坡国立大学概率与应用统计学院。目前就职于腾讯,在微信实验平台负责假设检验,因果推断,AB实验等方面的研究。研究兴趣包括网络效应,贝叶斯推断,分位数回归,序列化检验,方差消减等。
演讲题目:社交网络实验在微信实验平台的应用
演讲提纲:
在互联网场景中,用户和用户之间会通过各种各样的形式相互关联,相互影响,这被称作网络效应。当存在网络效应时,传统AB实验的形式对于策略效果的估计是存在偏差的。我们将分享一种叫做基于簇的随机化网络实验。它的思想是把网络传播路径用一个社交关系图来刻画,并通过算法把关系图划分成不相交的簇,对簇做随机化实验,从而降低网络效应带来的偏差。我们将介绍如何构建一个有效的网络关系图,在做簇的划分时应该考虑哪些要素,如何将这种实验形式跟传统的AB实验融合起来,从而进行大规模的网络实验,以及做完实验之后怎么对得到的数据进行有效的假设检验和统计推断。最后,我们将分享网络实验在微信的社交场景下发现网络效应并降低实验偏差的案例。
听众收益:
1. 了解为什么要做社交网络实验
2. 了解社交网络实验的基本流程
3. 了解社交网络实验统计推断的理论框架
个人介绍:研究生毕业于清华大学软件学院,连续创业者,也曾任职于某知名外企、某国内头部互联网公司,熟悉增长、商业化及AI产品化。2021年加入水滴,负责水滴数据与平台建设,包括业务指标体系建设、AB实验平台、BI平台、企业信息化等。
演讲题目:水滴社交传播场景AB实验的实践
演讲提纲:
水滴大病筹款业务具备典型的社交传播特征,业务在传统AB实验上面临着新的挑战。本次分享将会详细介绍水滴大病筹款业务面临的AB实验的挑战,以及我们进行的一些案例实践。
听众收益:
1. 社交传播场景下AB实验面临的挑战
2. 水滴社交传播场景进行AB实验的经验分享
个人介绍:刘时光,现任小米集团互联网业务部数据科学产品总监,从战略、人才、组织、技术架构以及分析方案等多维度打造一流的增长分析平台和数据驱动的科学组织文化。 2010年加入阿里巴巴云计算公司,先后在CNZZ、阿里妈妈、友盟等部门从事数据及营销类产品经理工作。2017年加入滴滴,参与过世界级预算规模的POPE营销引擎的搭建,并在数据科学与智能部负责用户画像系统、DSP外投等增长类数据智能产品工作。近十年在数据科学和增长产品领域,获得发明设计专利授权5项。
演讲题目:基于 AB 实验的边际 ROI 增长分析实践
演讲提纲:
1. 降本增效下如何做好增长分析
2. 基于 AB 实验方法的边际 ROI 计量与实践
3. 基于 AB 实验方法的边际 CAC 计量与实践
听众收益:
1. 互联网增长分析核心工作内容
2. 如何通过 AB 实验剔除策略效果中的自然增长量
3. 降本增效背景下,互联网广告主与广告平台之间的博弈逻辑
个人介绍:毕业于中南大学后,随后加入华为负责5G室内覆盖数据分析平台开发相关工作,20年加入货拉拉科技公司,从0到1负责搭建了货拉拉AB实验平台,实现多种分流算法(随机、时间片轮转、时空等)助力公司在货运双边市场场景下科学、高效地完成AB实验。
演讲题目:货运双边市场下AB实验分流算法实践
演讲提纲:
在货拉拉大数据中台下的AB实验平台目前已服务货拉拉的全线业务,助力完成各产品10w+次的功能迭代AB实验,每日生产千级别的效果分析报告,帮助业务进行决策。由于货运市场是一个双边市场,对AB实验分流算法的诉求有别于一般的单边场景。所以本文会先简要介绍货拉拉公司对AB实验的诉求,以及货拉拉AB实验平台的技术架构,然后重点分享在双边市场场景下的货拉拉AB实验平台多种分流算法的落地实践。最后也会介绍货拉拉AB实验平台在实验科学性方面做的前沿探索。
听众收益:
1. 货拉拉AB实验平台的架构设计
2. 双边市场多种分流算法落地实践