返回上一页 > 专题演讲嘉宾
DACon 2026 · 上海站
黄炜喆
京东 算法工程师

本硕毕业于中国科学技术大学,现任京东算法工程师,专注于xLLM大模型高性能推理引擎研发,主导调度系统与框架优化。相关研究成果发表于NIPS、MLSys、NAACL、DASFAA等国际顶会,谷歌学术引用量逾250次,具备扎实的学术与工程能力。

嘉宾日程:

xLLM在复杂业务场景下的统一调度优化实践

#大模型时代算法演进(出品人:京东零售 智能平台部算法总监 刘童璇)

在京东的LLM服务实践中,我们面临两类核心业务场景:一是多优先级和请求SLO共存的复杂环境——不同业务线的请求不仅拥有各自的SLO要求(如TTFT、TPOT指标),还附带差异化的业务优先级,例如满足高优先级请求的SLO时延要求能带来更高的业务收益;二是对TPOT高度敏感的交互场景(如客服机器人),亟需通过PD分离部署和优化消除prefill对decode的干扰,以保障输出流畅性。

针对场景一,我们提出Slidebatching算法,在批处理调度中同时感知请求优先级和SLO deadline,通过动态滑动边界机制在低负载时优先保障deadline,高负载时转向高密度优先策略,最大化系统总收益。并在单实例层面进一步设计异步流水线调度,将CPU调度与AI加速器计算重叠执行,彻底隐藏调度开销。

针对场景二,我们在PD分离架构下实现负载感知的双阈值调度策略,避免请求分发“过平衡”问题,在保障负载均衡的同时满足SLO要求;同时引入实例动态调度机制,根据TTFT/TPOT指标实时调整PD实例池比例,提升资源利用率。


演讲提纲:

1、业务背景与挑战
2、解决方案:xLLM调度优化算法
3、落地成效,相比SOTA方案,系统收益提升35%,SLO达标率提升52%,TPOT时延降低30%以上
4、未来规划

听众收益:

1、掌握多优先级与SLO共存的调度设计方法论,听众将深入理解在多租户LLM服务场景下,如何同时兼顾业务优先级和SLO时延要求这两个相互制约的维度。
2、获得PD分离架构下请求调度与实例调度的实战经验,针对TPOT敏感的交互场景,听众将系统性地学习到PD分离架构的三层优化实践。

04 月 25 日 10:25 - 11:10