罗震霄在Pinterest担任Sr. Staff Software Engineer,负责大数据实时处理引擎,监控平台,和大模型数据预处理。在加入Pinterest之前,罗震霄先后在 Cloudera,Uber,Twitter,Facebook 负责大数据引擎和机器学习平台的研发和运营工作。罗震霄是开源项目 Presto committer,Presto Technical Steering Committee member。本科毕业于复旦大学,博士(on leave)毕业于 University of Wisconsin Madison。
Pinterest在大语言模型数据处理上的最后一公里技术实践
案例将简述 Pinterest 为大模型训练搭建的数据预处理平台。先简单介绍之前公司内部基于 Spark,PyTorch 等构建的数据 pipeline,我们发现不仅浪费开发人员的研发时间,而且训练资源吞吐率不高,特别是 GPU 的使用率一直很难提高。核心问题在于需要同时管理异构资源的 framework,包括 CPU和 GPU,而且在海量数据进行 batch inference 的时候,需要 Streaming Processing 和 Distributed Scheduling。
在广泛的考察和比较之后,我们采用了基于 Ray搭建的数据预处理平台,为开发人员带来了极大的便利,并显著提高了资源利用率。Ray可以同时管理 CPU和GPU,具有大数据 Streaming Processing 的特点。在Ray的基础上,我们开发了Multi-Model Inference,CarryOver Columns,Accumulator 等实用工具。
现在,我们的新一代数据预处理平台已经推广到公司的几十个机器学习组,每天上线50个以上的 Batch Inference 工作。
听众收益:
- 了解 Pinterest 作为全美排名前三的社交网络公司,如何进行大模型的部署和应用;
- 在大模型部署过程中,解决数据预处理的瓶颈;
- 了解 Ray 作为行业领先的大模型数据处理平台,在企业中的应用;
- 数据部门如何与深度学习部门进行合作,优化公司的大模型部署和运营;
