AI助手技术演进实践和多模态趋势
〇 分享简介 〇
让大众可感知的AI助手是以智能硬件为载体的AI语音助手为代表,随着大模型的涌现能力出现后AI助手类应用在技术上产生了一个很大的技术演进,AI助手迎来了爆发式的发展,例如文心一言,豆包,Kimi等,用户规模也是曲线增长,AI助手类也被认为是最有可能成为下一个大模型超级应用的潜力,从技术趋势上,随着多模态大模型的发展AI助手也正从单模态交互向多模态交互演进。
在技术实践上AI助手可以分为任务式AI助手,开放域通用AI助手,垂类AI助手,任务式AI助手以语音助手为代表,典型应用场景是智能音箱,智能座舱,其主要研究点是在近场远场有噪环境下如何提升指令控制的准确率和泛化能力,以及自然流畅的全双工语音交互,开放域通用AI助手以当前热门的大模型AI助手为代表。其主要的难点有4点:
第一,幻觉问题,本质是大模型生成存在幻觉问题,当前的研究主要通过各种RAG技术解决。
第二,数学和逻辑推理不足,主要通过模型和数据维度去优化,以及上下文理解,包括多轮对话的连贯性和一致性,超长上下文复杂理解。
第三,多模态交互,多种模态的理解和生成是当前大模型发展的趋势,但实现端到端的多模态支持仍是技术上的难点,
第四,安全治理问题,也是各种AI助手的通用问题。垂类助手主要和各种领域垂类想结合,与通用AI助手技术体系相同,主要难点在于和领域知识的融合。
本次分享将探讨任务式AI助手的核心技术以及大模型下的优化方法实践,并针对当前热门的大模型AI助手在技术上给大家分享主流的技术架构,以及解决当前的难点问题的核心思路,并结合京东在AI助手的实践,看到从单模态到多模态的交互趋势。
〇 分享收益 〇
目标:
1、了解AI助手的历史发展和技术趋势
2、掌握AI语音助手解决核心难点的主流技术和关键设计思路
3、借鉴大模型AI助手在解决难点问题的核心技术和创新方法
4、企业在构建垂类大模型AI助手的思考和方法论
成功(或教训)要点:
1、基于大模型驱动的对话式AI助手,通过优化数据质量,训练方法,模型结构等方法可显著提升指令理解的准确性和泛化性能。
2、在AI助手用户体验上,需要从数据驱动算法角度构建应用反馈闭环,同时结合RAG技术和Agent技术来提升端到端的用户交互体验。
启示:
1、流畅的交互体验和精准的控制指令是语音助手成功的关键,而利用大模型能力结合用户反馈数据优化是实现这一目标的核心方法。
2、AI助手的交互趋势上,是从文本或语音为主的单模态交互趋向于融合听觉,视觉,触觉,空间感知等多模态交互发展,也与预示着未来AGI助手的发展趋势。
〇 分享亮点 〇
1、AI助手的历史和发展现状
2、语音助手核心技术和实践
3、大模型AI助手关键技术
4、京东在RAG、Agent等技术下的AI助手探索实践
5、AI助手多模态交互趋势和展望
6、QA
京东零售大模型科学家、技术总监,前华为智能协作领域 AI 助手首席专家,前昆仑万维天工大模型高级总监,在 AI 助手,NLP 和搜索领域有十多年研发实践经验,曾任华为 - 北大联合语音语义实验室研究观察员,在华为,百度期间主导构建了业界一流的 AI 算法系统并落地 AI 助手以及搜索场景,在大模型方向上主导过业界知名大模型的核心技术研发,目前专注于大模型技术以及在 AI 助手搜推等领域的应用探索和实践,在 AI/NLP 领域申请超过 15 项发明专利并出版两部著作。