基于异质性建模的大语言模型长文本高效推理
大型语言模型(LLM)在推理过程中面临计算资源瓶颈,尤其体现在长文本场景中:一方面是参数规模庞大导致的存储压力,另一方面是KV缓存膨胀引起的内存占用。本报告将深入探讨这一双重挑战的协同优化方法,揭示两者之间的内在联系,并提出基于异质性现象的优化思路。研究表明,通过理解和利用大模型中的异质性,可以在保持模型性能的同时,显著降低长文本推理时的资源消耗,为大模型在资源受限环境下的部署提供新思路。
演讲大纲:
1. 大模型中的异质性现象
参数异质性:模型权重重要性分布不均
注意力异质性:KV缓存项价值差异显著
2. 基于参数异质性的模型压缩
3. 基于键值异质性的键值缓存压缩
听众收益:
1. 获得异质性视角,掌握权重参数和注意力机制中蕴含的内在规律
2. 学习系统化方法论,构建基于异质性建模的优化框架
3. 掌握技术整合能力,形成有效的解决方案
崔万云,上海财经大学信息学院副教授,博士生导师。他是AI2000最具影响力学者提名,ACM中国优博提名奖、ACM上海优博奖得主。在NeurIPS、ICLR、ACL、EMNLP、SIGMOD、PVLDB、IJCAI、AAAI等会议上发文二十余篇。主持国家自然科学基金青年项目、上海市青年扬帆项目等。