DACon 2025 · 北京站

返回上一页 > 日程安排

腾讯大规模强化学习训练框架的深度实践与优化

时间： 10 月 24 日 16:55 - 17:40

内容介绍：

本次演讲将介绍在大规模强化学习训练框架领域的最新思考与实践。系统性的分享腾讯如何构建支持万亿参数模型训练的RL基础设施，直面在超大规模分布式训练中遇到的性能瓶颈、容灾挑战和算法协同等核心难题。演讲内容不仅涵盖关键的性能优化技术，更会揭秘框架背后的设计哲学与未来演进层面的内容。

演讲提纲：

1. 大模型时代的强化学习新挑战

RLHF如何成为大模型能力的“校准器”和“指挥棒”

万亿参数模型给RL训练带来的范式转变

2. 腾讯强化学习框架 AtlasTraining RL 现状全景图

2.1 支持的核心算法与范式：

PPO、DPO、及其在对话、游戏等场景下的变种与优化

支持离线强化学习、在线模拟交互等多种数据模式

与主流预训练框架的无缝集成方案

2.2 系统架构解析：

异构计算架构：如何协调GPU和CPU的高效协作

存储与数据流：高吞吐、低延迟的经验样本采集、存储与分发管道设计

容错与弹性调度：面对动辄数周的训练任务，如何实现断点续训、动态节点扩缩容和故障自动恢复

2.3 性能基准：

千卡/万卡集群规模下的线性加速比数据展示

单机/分布式场景下的吞吐量和资源利用率指标

与基线框架的对比性能数据

3. 关键性能优化技术深掘

3.1 通信优化：

梯度同步策略：异步更新、同步更新的权衡与混合策略

数据压缩：针对梯度、经验数据的无损/有损压缩技术

3.2 内存优化：

ZeRO-RL：借鉴ZeRO阶段3的思想，对优化器状态、梯度、参数的分布式分片存储

CPU Offloading：将经验回放池、旧策略模型等移至CPU内存或NVMe SSD，突破GPU内存墙

内存复用与显存池化：避免碎片化，高效管理动态生命周期的Tensor

3.3 训练效率与稳定性：

流水线并行：将Actor、Learner过程深度流水化，掩盖I/O和计算延迟

重要性采样与优先级回放的高效分布式实现

混合精度训练（AMP）在RL场景下的特殊调优

4. 未来规划与行业展望

多模态强化学习：框架对视频、音频等复杂状态输入的支持规划

更高效的算法支持：探索对反向传播强化学习等新范式的原生支持

AI for System：利用机器学习自身来优化调度策略和参数配置

端云一体：探索在云端训练、在边缘端部署推理智能体的协同生态

听众收益：

1. 了解工业界最强RL训练框架的技术内幕和设计取舍。

2. 获得可复用的性能优化秘籍（通信、内存、调度），提升训练效率和资源利用率，降低训练成本。

3. 把握大规模RL训练的系统架构演进趋势和未来方向，为团队的技术选型和基础设施建设提供关键决策依据。

日程嘉宾

拥有10年左右的高性能计算、深度学习领域经验，先后就职于Intel，微软，腾讯公司，是 ONNX，TF-ONNX，ONNXRuntime 等深度学习框架的开发者，深度参与微软/腾讯公司的大模型预训练、强化训练。

本活动由百格活动提供技术支持