使用微信扫一扫分享到朋友圈
使用微信扫一扫进入小程序分享活动
Ray Forward 2025 将于 12 月 20 日 在北京蚂蚁 T 空间举办。本次活动由蚂蚁集团发起的 Ray 中文社区和蚂蚁开源联合主办,以 “拥抱 AI,Ray 向未来” 为主题,并通过线上平台同步直播。
2025 年是 AGI 实现突破的关键之年。多模态大模型、世界模型与自主智能体(Agent)的技术融合,正加速推动人工智能向通用化迈进。Ray 作为分布式计算的核心基础设施,已成为 AGI 规模化应用的重要支撑,在非结构化数据处理、强化学习训练与大规模模型推理等场景中发挥关键作用。
本次活动将汇聚来自头部科技公司、知名 AI 实验室及开源社区的技术领袖与专家,分享 Ray 在 AGI 领域的最新实践与生态应用,共同探索下一代智能计算架构的未来发展。
数据是驱动大模型能力涌现与持续进化的核心要素。本次分享将聚焦如何系统化释放数据对模型的更大价值。我们将介绍基于 Ray 构建的多模态数据处理开源系统 Data-Juicer。围绕“数据菜谱”(Data Recipe)理念,分享从原始数据到高质量训练与评测数据集的端到端流程,并探讨数据策略与模型反馈的联动实践——包括静态离线的高质量数据合成,以及动态在线的强化学习 rollout 数据管理与优化。本报告旨在为研发人员提供规模化提升数据有效性的全局视角与工具实践参考。
AnalyticDB融合Ray构建了Data + AI的服务,支持了云上包括多模态处理、商业智能、Agent、具身智能等关键场景。
本次分享将聚焦京东零售核心业务场景,通过多个规模化落地案例,深度解析机器学习在弹性离线推理与弹性离线训练环节的关键挑战。我们将从业务痛点出发,层层剖解资源调度低效、弹性扩缩容困难、训推割裂等典型问题,并针对性提出基于Ray框架的创新解决方案——最终构建起支持"训练-推理"端到端协同的分布式机器学习系统,实现资源利用率与模型迭代效率的双重提升。
ve-ray 是火山引擎面向企业级场景,基于 Ray 深度优化的发行版。其核心围绕企业生产环境的实际需求,整合弹性调度、Ray Data Checkpoint、History 等关键增强特性,形成更贴合业务落地的技术底座。 本次演讲将重点分享:ve-ray 如何通过技术迭代实现性能、生产级稳定性与资源效率的协同提升;核心增强特性的技术实现逻辑与实践路径;以及在任务连续性保障、资源动态调度等核心场景的技术适配方案,同时结合多模态数据湖的落地案例,呈现其在复杂业务场景中的实用价值。
随着大模型时代的到来,特别是RAG诉求的提出,传统搜推逐渐从标量特征扩展至文档、图片以及音视频等多模态场景, 对于底层引擎而言,挑战在于需要处理的数据复杂度越来越高,数据量也越来越大,且伴随业务的瞬息万变,数据处理的时效性要求也愈发严苛。 本次分享将介绍蚂蚁的全模态数据构建引擎如何在Ray分布式计算底座上技术演进应对上述挑战: 1.基于ray的海量数据构建提效 2.C++与Python融合的算子体系助力高性能计算与AI生态的共生共存 3.RAG场景的业务实践
Ray Data在字节跳动广泛应用于各种数据密集型场景,如大规模数据集准备和离线推理,这些场景涉及诸如可扩展性、数据集成和稳定性等技术挑战。 为此,我们基于Ray Data与DataFusion构建了分布式SQL栈,其支持谓词下推、原生分布式执行。我们了拓展了Ray Data以支持多种数据源,包括Hive与内部增强版Iceberg,Magnus,后者提供Git式版本管理与ML优化分片。我们还集成了Kafka,并实现流式执行、Checkpoint与高可用。 在VLM数据生产中,我们基于Ray与Magnus搭建标注框架,单个Ray任务即可完成读取、标注与回写。借助Ray Data SQL,我们高效筛选与分发数据,标注结果以Merge-On-Read写回湖仓,显著提升模型标注与数据生成效率。