返回上一页 > 日程安排

腾讯大规模强化学习训练框架的深度实践与优化

时间: 10 月 24 日 16:55 - 17:40
内容介绍:

本次演讲将介绍在大规模强化学习训练框架领域的最新思考与实践。系统性的分享腾讯如何构建支持万亿参数模型训练的RL基础设施,直面在超大规模分布式训练中遇到的性能瓶颈、容灾挑战和算法协同等核心难题。演讲内容不仅涵盖关键的性能优化技术,更会揭秘框架背后的设计哲学与未来演进层面的内容。


演讲提纲:

1. 大模型时代的强化学习新挑战

RLHF如何成为大模型能力的“校准器”和“指挥棒”

万亿参数模型给RL训练带来的范式转变


2. 腾讯强化学习框架 AtlasTraining RL 现状全景图

2.1 支持的核心算法与范式:

PPO、DPO、及其在对话、游戏等场景下的变种与优化

支持离线强化学习、在线模拟交互等多种数据模式

与主流预训练框架的无缝集成方案


2.2 系统架构解析:

异构计算架构:如何协调GPU和CPU的高效协作

存储与数据流:高吞吐、低延迟的经验样本采集、存储与分发管道设计

容错与弹性调度:面对动辄数周的训练任务,如何实现断点续训、动态节点扩缩容和故障自动恢复


2.3 性能基准:

千卡/万卡集群规模下的线性加速比数据展示

单机/分布式场景下的吞吐量和资源利用率指标

与基线框架的对比性能数据


3. 关键性能优化技术深掘

3.1 通信优化:

梯度同步策略:异步更新、同步更新的权衡与混合策略

数据压缩:针对梯度、经验数据的无损/有损压缩技术


3.2 内存优化:

ZeRO-RL:借鉴ZeRO阶段3的思想,对优化器状态、梯度、参数的分布式分片存储

CPU Offloading:将经验回放池、旧策略模型等移至CPU内存或NVMe SSD,突破GPU内存墙

内存复用与显存池化:避免碎片化,高效管理动态生命周期的Tensor


3.3 训练效率与稳定性:

流水线并行:将Actor、Learner过程深度流水化,掩盖I/O和计算延迟

重要性采样与优先级回放的高效分布式实现

混合精度训练(AMP)在RL场景下的特殊调优


4. 未来规划与行业展望

多模态强化学习:框架对视频、音频等复杂状态输入的支持规划

更高效的算法支持:探索对反向传播强化学习等新范式的原生支持

AI for System:利用机器学习自身来优化调度策略和参数配置

端云一体:探索在云端训练、在边缘端部署推理智能体的协同生态


听众收益:

1. 了解工业界最强RL训练框架的技术内幕和设计取舍。

2. 获得可复用的性能优化秘籍(通信、内存、调度),提升训练效率和资源利用率,降低训练成本。

3. 把握大规模RL训练的系统架构演进趋势和未来方向,为团队的技术选型和基础设施建设提供关键决策依据。

日程嘉宾
DACon 2025 · 北京站
徐志江
腾讯 机器学习平台 大模型训练框架技术专家

拥有10年左右的高性能计算、深度学习领域经验, 先后就职于Intel,微软,腾讯公司,是 ONNX,TF-ONNX,ONNXRuntime 等深度学习框架的开发者,深度参与微软/腾讯公司的大模型预训练、强化训练。