活动首页 > 嘉宾介绍
DA数智大会2025 · 深圳站
罗震霄 博士
Pinterest Sr. Staff Software Engineer

罗震霄在Pinterest担任Sr. Staff Software Engineer,负责大数据实时处理引擎,监控平台,和大模型数据预处理。在加入Pinterest之前,罗震霄先后在 Cloudera,Uber,Twitter,Facebook 负责大数据引擎和机器学习平台的研发和运营工作。罗震霄是开源项目 Presto committer,Presto Technical Steering Committee member。本科毕业于复旦大学,博士(on leave)毕业于 University of Wisconsin Madison。

嘉宾日程:

Pinterest在大语言模型数据处理上的最后一公里技术实践

#Data+AI 一体化平台架构实践(出品人:成峰)

案例将简述 Pinterest 为大模型训练搭建的数据预处理平台。先简单介绍之前公司内部基于 Spark,PyTorch 等构建的数据 pipeline,我们发现不仅浪费开发人员的研发时间,而且训练资源吞吐率不高,特别是 GPU 的使用率一直很难提高。核心问题在于需要同时管理异构资源的 framework,包括 CPU和 GPU,而且在海量数据进行 batch inference 的时候,需要 Streaming Processing 和 Distributed Scheduling。


在广泛的考察和比较之后,我们采用了基于 Ray搭建的数据预处理平台,为开发人员带来了极大的便利,并显著提高了资源利用率。Ray可以同时管理 CPU和GPU,具有大数据 Streaming Processing 的特点。在Ray的基础上,我们开发了Multi-Model Inference,CarryOver Columns,Accumulator 等实用工具。


现在,我们的新一代数据预处理平台已经推广到公司的几十个机器学习组,每天上线50个以上的 Batch Inference 工作。


听众收益:

- 了解 Pinterest 作为全美排名前三的社交网络公司,如何进行大模型的部署和应用;

- 在大模型部署过程中,解决数据预处理的瓶颈;

- 了解 Ray 作为行业领先的大模型数据处理平台,在企业中的应用;

- 数据部门如何与深度学习部门进行合作,优化公司的大模型部署和运营;

07 月 25 日 16:00 - 16:45