活动首页 >日程安排

基于异质性建模的大语言模型长文本高效推理 1003371873617065.png

时间: 04 月 25 日 14:55 - 15:40
内容介绍:

大型语言模型(LLM)在推理过程中面临计算资源瓶颈,尤其体现在长文本场景中:一方面是参数规模庞大导致的存储压力,另一方面是KV缓存膨胀引起的内存占用。本报告将深入探讨这一双重挑战的协同优化方法,揭示两者之间的内在联系,并提出基于异质性现象的优化思路。研究表明,通过理解和利用大模型中的异质性,可以在保持模型性能的同时,显著降低长文本推理时的资源消耗,为大模型在资源受限环境下的部署提供新思路。


演讲大纲:

1.  大模型中的异质性现象

参数异质性:模型权重重要性分布不均

注意力异质性:KV缓存项价值差异显著

2.  基于参数异质性的模型压缩

3.  基于键值异质性的键值缓存压缩


听众收益:

1.  获得异质性视角,掌握权重参数和注意力机制中蕴含的内在规律

2.  学习系统化方法论,构建基于异质性建模的优化框架

3.  掌握技术整合能力,形成有效的解决方案

日程嘉宾
DA数智大会2025 · 上海站
崔万云
上海财经大学 副教授

崔万云,上海财经大学信息学院副教授,博士生导师。他是AI2000最具影响力学者提名,ACM中国优博提名奖、ACM上海优博奖得主。在NeurIPS、ICLR、ACL、EMNLP、SIGMOD、PVLDB、IJCAI、AAAI等会议上发文二十余篇。主持国家自然科学基金青年项目、上海市青年扬帆项目等。