DACon 2026 · 上海站

返回上一页 > 专题演讲嘉宾

黄炜喆

京东算法工程师

本硕毕业于中国科学技术大学，现任京东算法工程师，专注于xLLM大模型高性能推理引擎研发，主导调度系统与框架优化。相关研究成果发表于NIPS、MLSys、NAACL、DASFAA等国际顶会，谷歌学术引用量逾250次，具备扎实的学术与工程能力。

嘉宾日程：

xLLM在复杂业务场景下的统一调度优化实践

#大模型时代算法演进（出品人：京东零售智能平台部算法总监刘童璇）

在京东的LLM服务实践中，我们面临两类核心业务场景：一是多优先级和请求SLO共存的复杂环境——不同业务线的请求不仅拥有各自的SLO要求（如TTFT、TPOT指标），还附带差异化的业务优先级，例如满足高优先级请求的SLO时延要求能带来更高的业务收益；二是对TPOT高度敏感的交互场景（如客服机器人），亟需通过PD分离部署和优化消除prefill对decode的干扰，以保障输出流畅性。

针对场景一，我们提出Slidebatching算法，在批处理调度中同时感知请求优先级和SLO deadline，通过动态滑动边界机制在低负载时优先保障deadline，高负载时转向高密度优先策略，最大化系统总收益。并在单实例层面进一步设计异步流水线调度，将CPU调度与AI加速器计算重叠执行，彻底隐藏调度开销。

针对场景二，我们在PD分离架构下实现负载感知的双阈值调度策略，避免请求分发“过平衡”问题，在保障负载均衡的同时满足SLO要求；同时引入实例动态调度机制，根据TTFT/TPOT指标实时调整PD实例池比例，提升资源利用率。

演讲提纲：

1、业务背景与挑战
2、解决方案：xLLM调度优化算法
3、落地成效，相比SOTA方案，系统收益提升35%，SLO达标率提升52%，TPOT时延降低30%以上
4、未来规划

听众收益：

1、掌握多优先级与SLO共存的调度设计方法论，听众将深入理解在多租户LLM服务场景下，如何同时兼顾业务优先级和SLO时延要求这两个相互制约的维度。
2、获得PD分离架构下请求调度与实例调度的实战经验，针对TPOT敏感的交互场景，听众将系统性地学习到PD分离架构的三层优化实践。

04 月 25 日 10:25 - 11:10

本活动由百格活动提供技术支持