大模型时代的向量数据库——机器之心 AI 技术论坛

首页

活动日程

2023-11-24

2023-11-25

2023-11-24

09:30 -12:00

主题演讲

阳光厅

2023-11-24

09:30-10:15

大语言模型知识能力获取与知识问答实践

2022 年 11 月美国科技公司 OpenAI 推出的生成式对话语言模型 ChatGPT 掀起了人工智能领域新一轮的热潮，打破了传统弱人工智能与强人工智能之间的边界，被誉为通往通用人工智能（AGI）的重要路径。与此同时，围绕这一全新技术范式的新研究如雨后春笋一般不断涌现。本报告将围绕大语言模型中的知识如何学习以及构成的最新研究，围绕从参数角度对大语言模型进行分析的工作进行介绍，并对大语言模型在知识问答方面的实践经验进行介绍。

嘉宾

张奇

复旦大学计算科学技术学院教授、博士生导师

2023-11-24

10:20-11:05

大规模向量索引与向量数据库的归一化

近年来深度学习的最新进展使得各种类型的数据都能被映射为高维向量。目前最先进的向量搜索库主要关注如何在内存中进行快速高召回率的搜索。然而，在极大规模的向量搜索场景中存在一些挑战。例如，数百亿个向量与有限的内存结合在一起会导致容量问题。同时，扩展性也是一个问题，增加服务机器的数量会增加查询延迟和计算成本。并且向量索引的更新也是一个难题，目前向量索引的更新主要依赖周期性的索引重建，而索引重建的开销非常大，尤其是大规模向量索引的重建甚至远远超过其对外提供搜索服务的开销。此外，高维向量索引不具备单调性，而单调性是传统索引的一个关键属性。缺乏单调性使得现有的向量系统不得不依赖于保持单调性的临时索引，用于目标向量的 TopK 最近邻，以便实现近似相似性搜索和关系运算的复杂查询。这导致了性能的下降，因为很难预测最优的 K 值。在本次演讲中，我们介绍了 SPANN，一个分布式基于磁盘的 ANNS 系统，已经集成到 Bing 中，可以实现数百亿规模的向量搜索，并以毫秒级的响应时间。同时，涵盖我们最近在索引更新上的新进展。此外，我们还介绍 VBASE，一个向量数据库系统，它能有效处理基于一种称为放松单调性的共同属性的复杂查询。这种方法将两个看似不兼容的系统统一起来，提供了比现有最先进的向量系统高出三个数量级的性能。

嘉宾

陈琪

微软亚洲研究院系统研究组首席研究员

2023-11-24

11:10-11:55

从混乱到秩序——揭秘生成式搜索背后的概率

演讲大纲：

1. 概率：信息检索的基石

2. 基于词频的搜索方法：TFIDF

3. 基于深度学习模型的搜索方法：BERT

4. 概率融合：混合查询的价值

5. 向量数据库 Milvus：混沌的导航者

6. 概率永不停止：生成式样检索的未来

嘉宾

栾小凡

Zilliz 合伙人兼技术总监

2023-11-24

13:30 -17:10

向量数据库产业最佳实践

阳光厅

2023-11-24

13:30-14:05

腾讯云向量数据库的技术创新与最佳实践

随着大模型的兴起，向量数据库逐渐成为AI领域的关键存储基础设施。由于目前的大模型都是预训练模型，对于训练截止日之后发生的事情一无所知。第一是没有实时的数据，第二是缺乏私域数据或者企业数据，向量数据库可以通过存储最新信息或者企业数据有效弥补了这些不足。但是对于一些企业来说，向量数据库背后到底有哪些核心技术、如何选择一款合适的向量数据库、有没有典型的应用落地案例可以参考，缺乏比较全面的认识。本次分享将聚焦腾讯云向量数据库技术创新和实践，为大家带来这一领域的最新技术动态、应用实践，以及未来趋势。

演讲大纲：

1. 向量数据库是什么，为什么需要向量数据库

2. 腾讯云向量数据库的架构和创新

3. 腾讯云向量数据库AI Native能力

4. 腾讯云向量数据库最佳实践

5. 未来面临的挑战

嘉宾

伍旭飞

腾讯云资深工程师、NoSQL数据库研发团队负责人

2023-11-24

14:05-14:40

阿里云向量检索增强大模型对话系统最佳实践

大语言模型具备强大的自然语言处理能力，但其在“事实性”、“实时性”等方面存在天然缺陷，很难直接被用于客服、答疑等需要精准回答的领域知识型问答场景。当前主流方案是借助外部知识库，通过向量检索增强，辅助大模型生成准确回答。整个流程是一套相对复杂的系统工程。本次分享将基于阿里云人工智能平台，拆解流程中各核心模块，展示「向量数据库+通义千问」构建对话系统的最佳实践，并为大家带来阿里云线上多场景落地的实战调优经验。

演讲大纲：

1. LLM向量检索增强方案概述
2. 阿里云向量数据库技术与创新
3. 向量数据库+通义千问最佳实践
4. 基于阿里云人工智能平台的优化

嘉宾

施晨

阿里云算法研究员、人工智能平台大模型架构师

2023-11-24

14:40-15:15

百度智能云 BES 在大规模向量检索场景的探索实践

近两年对 AI 技术架构影响最大的就是大模型，由此也促进了大模型原生应用的蓬勃发展。在大模型产生、迭代和演进的过程中，它对底层的基础设施提出了新的挑战。

向量数据库应运而生，它为大模型的应用提供了高效的存储和查询机制。它能解决大模型预训练成本高、没有“长期记忆”、知识更新不足、提示词工程复杂等问题，突破大模型在时间和空间上的限制，加速大模型落地行业场景。通过使用向量数据库，大模型原生应用也可以更快速地检索和匹配相似的向量，从而提高了应用的准确性和效率。本次演讲将为大家带来百度智能云 BES 向量数据库在大规模应用场景的探索和实践。

演讲大纲：

1. 向量数据库应用场景

2. BES 构建向量数据库的技术挑战与实现

3. BES 向量数据库场景示例与最佳实践

4. BES 向量数据库应用案例

嘉宾

刘轩

百度智能云 BES 技术负责人

2023-11-24

15:15-15:30

茶歇

2023-11-24

15:30-16:05

火山引擎向量数据库VikingDB技术演进及应用

嘉宾

高丽萍

火山引擎智能推荐和向量数据库产品负责人

2023-11-24

16:05-16:40

DingoDB 多模向量数据库：大模型时代的数据引擎

向量数据库作为大模型应用的“记忆体”，必须提供海量的存储能力和基于向量相似度的快速检索能力。DingoDB 是一个开源的多模向量数据库，支持丰富的向量索引类型，实现了向量数据与其他结构化数据的联合存储、分析和查询，并提供了与其他系统如 LangChain 对接的丰富接口。本次分享将分析 DingoDB 的技术架构和优势，展示其与九章元识大模型在知识管家系统中的最佳实践。

演讲大纲

1. DingoDB 多模向量数据库

2. DingoDB 多模向量数据库技术架构与优势

3. DingoDB 多模向量数据库与大模型的最佳应用实践

嘉宾

焦悦光

九章云极DataCanvas DingoDB 产品研发高级架构师

2023-11-24

16:40-17:15

搜索增强型（RAG）AI原生向量数据库AwaDB技术创新与实践

大模型直接落地应用于产业界时，由于缺乏领域专业知识，无法理解行业knowhow，对产业帮助非常有限。另外，行业私域数据通常隐私性极强，很难开放给大模型学习，而微调则存在门槛高，通用知识遗忘的难题，且成本很高。相对于微调，搜索增强（RAG）是一种成本低廉，能让大模型在私域发挥价值的技术解决方案。AwaDB是一款AI原生的搜索增强型向量数据库，采用了语义向量融合文本索引检索的技术实现方式，大幅提升私域数据的检索排序效果，最终让大模型更好地生成理解行业知识，帮助产业界更好地落地应用场景。本次分享围绕AwaDB的核心架构和技术创新展开，带你看看如何打造一款向量数据库。

演讲提纲：

1. AwaDB 背景及特点

2. AwaDB 整体架构

3. AwaDB 核心能力

4. AwaDB 技术创新点

5. AwaDB 未来演进路线

6. 结合 RAG 的最新实践

嘉宾

李洁

AwaDB 创始人

2023-11-24

18:00-19:00

晚场活动：聊聊技术和职业规划

嘉宾

史业民

北京灵琐科技 CEO、Chinese Llama 2 7B 项目发起人

刘道全

始智AI创始人兼CEO、清华校友总会AI大数据专委会副秘书长

2023-11-25

09:30 -12:00

Embedding Model 与向量数据库新未来

阳光厅

2023-11-25

09:30-10:15

GTE：预训练语言模型驱动的文本 Embedding

文本表示是自然语言处理领域（NLP）的一项核心任务，其旨在将人类使用的自然语言转化为计算机可理解并处理的形式。近期，大模型的出现激发出大量类似 Langchain 的开发工具、同步引爆了 Embedding 和向量数据库的热潮。如何基于预训练语言模型构建高质量的文本表示模型也成为大家关注的热点，本次分享将重点分享阿里巴巴开源通用文本表示向量 GTE 系列模型的探索、思路与经验。

演讲提纲:

1. 什么是文本表示

2. 文本表示的应用场景

3. 预训练驱动的统一文本表示

4. GTE 系列模型 & API

5. 总结与展望

嘉宾

龙定坤

阿里巴巴通义实验室自然语言处理算法专家

2023-11-25

10:20-11:05

jina-embeddings-v2：突破长文本向量化瓶颈，实现 8192 输入长度

深度学习大模型在实际应用中面临众多挑战，其中 RAG（Retrieval-Augmented Generation）为其最具前景的落地策略之一。不同于 LLM 微调，RAG 能够更为有效地应对如模型幻觉、私域知识的注入等诸多问题。然而，RAG 的效果与其召回阶段的表现息息相关。广为采用的召回策略多倚赖于向量表示模型及相应的向量数据库，利用这些模型来捕获并表示文本片段的深层语义。但开发者面临的瓶颈在于，现有的向量表示模型仅支持 512 个 token 的输入，这无疑制约了其表示能力。而 jina-embedding-v2 则为开发者带来了突破，支持长达 8000 个 token 的输入，使得从字到篇章的不同语义层级都得以充分表示，进而显著提升召回效果。在本次分享中，我们将深入探讨 jina-embedding-v2 的技术核心，并分享 Jina AI 在训练大规模向量表示模型的宝贵经验。

演讲大纲：

1. RAG应用中目前主流的向量表示模型的问题

2. jina-embedding-v2的解决方案和在长文本召回方面的效果对比

3. jina-embedding-v2的模型架构设计与输入长度拓展

4. jina-embedding-v2的数据准备

5. jina-embedding-v2的训练方法

6. jina-embedding-v2训练过程中的经验

嘉宾

王楠

Jina AI 联合创始人兼 CTO

2023-11-25

11:10-11:55

圆桌：大模型时代向量数据库新未来

嘉宾

刘政

智源研究院基础模型中心研究员

冯若航

磐吉云数创始人兼 CEO

汤林鹏

墨奇科技联合创始人兼 CTO

2023-11-25

13:30 -17:30

知识库最佳实践与实操指南

阳光厅

2023-11-25

13:30-14:05

向量数据库在金融大模型落地中的挑战与思考

知识库为企业决策提供了可靠、高效的信息支持，结合大语言模型强大的语言理解和生成能力，知识库可以更好地为用户提供智能化和高效化的信息服务。向量数据库作为中间载体，在赋予大模型“长期记忆"的同时，其召回精度直接影响大模型输出结果的准确率。星环科技分布式向量数据库 Transwarp Hippo 在金融大模型的落地过程中，通过一系列的优化措施提升了召回的精度，并从成本，数据的接入等多个视角去解决客户和开发者的应用过程中遇到的问题。

演讲大纲：

1. 金融大模型的背景与愿景

2. 金融大模型-知识库-向量数据库

3. 向量数据库 hippo 在落地过程中的实践与思考

4. 未来展望

嘉宾

谭力鸣

星环科技高级产品经理

2023-11-25

14:05-14:40

利用向量数据库搭建企业知识库的优化实践

随着大语言模型兴起，企业知识库也迎来了新的搭建方式，但同时也面临着解决垂直领域知识的准确性和实时性以及减轻模型“幻觉”的问题，向量数据库在此过程起起到了关键作用，也重新定义了企业知识库的管理方式。那么在 Fine-turning 和 RAG 企业该如何选择？向量数据库到底可以提供什么帮助？企业自有知识资产如何完美嵌入到向量数据库中？如何再优化企业的数据召回的准确度？本次分享就如何基于向量数据库搭建企业级知识库提供丰富实践知识，包含数据清洗嵌入到召回优化以及对企业知识库未来的展望。

演讲大纲：

1. 搭建企业知识库的困境与挑战

2. 知识管理新方式：向量数据库

3. 如何提高数据召回的准确率

4. 未来企业知识库展望

嘉宾

姜勇

Dify.AI 首席架构师

2023-11-25

14:40-15:00

茶歇

2023-11-25

15:00-16:00

使用向量数据库快速构建本地轻量图片搜索引擎

一起手动实现一个基于向量数据库图片搜索引擎。

演讲大纲：

1. 图片搜索引擎简洁和应用场景

2. 动手前的试玩

3. 基础技术架构设计

4. 在线 & 动手实战

5. 总结和未来新技术展望

嘉宾

苏洋

Chinese Llama 2 7B Contributor、大模型布道师

2023-11-25

16:00-17:00

向量数据库在大模型时代的应用

向量数据库在大模型出现之前已经有一些应用场景，比如文本、图片、视频以及多模态的搜索。随着生成式AI的火热，向量数据库已经成为智能对话机器人里构建私域知识库的利器。本次分享会展示向量数据库的两个使用案例：商品推荐和基于 RAG 的 Chatbot 构建。

演讲提纲：

1. 向量数据库的适用场景、分类及选型

2. 向量数据库在商品推荐领域的案例

3. 向量数据库在 RAG 构建 Chatbot 领域案例

4. 总结与展望

嘉宾

马丽丽

亚马逊云科技数据库技术专家架构师

大语言模型知识能力获取与知识问答实践

张奇

复旦大学计算科学技术学院教授、博士生导师

主要研究方向是自然语言处理和信息检索，聚焦自然语言表示、信息抽取、鲁棒性和解释性分析等。兼任中国中文信息学会理事、中国中文信息学会理信息检索专委会常务委员、中国人工智能青年工作委员会常务委员、SIGIR Beijing Chapter组织委员会委员等。在ACL、EMNLP、COLING、全国信息检索大会等重要国际国内会议多次担任程序委员会主席、领域主席、讲习班主席等。近年来承担了国家重点研发计划课题、国家自然科学基金、上海市科委等多个项目，在国际重要学术刊物和会议发表论文150余篇，获得美国授权专利4项，著有《自然语言处理导论》、《大规模语言模型：理论与实践》，作为第二译者翻译专著《现代信息检索》。获得WSDM 2014最佳论文提名奖、COLING 2018 领域主席推荐奖、NLPCC 2019杰出论文奖、COLING 2022杰出论文奖。获得上海市“晨光计划”人才计划、复旦大学“卓越2025”人才培育计划等支持，获得钱伟长中文信息处理科学技术一等奖、汉王青年创新一等奖、上海市科技进步二等奖、教育部科技进步二等奖、ACM 上海新星提名奖、IBM Faculty Award等奖项。

大规模向量索引与向量数据库的归一化

陈琪

微软亚洲研究院系统研究组首席研究员

于 2010 年和 2016 年在北京大学获得计算机科学学士学位和博士学位，在那里与导师肖臻教授一起从事分布式系统、云计算和并行计算的研究。2013 年至 2014 年，作为访问学生在纽约大学的系统组中，在李金扬教授的指导下从事分布式数组框架的研究。在顶级会议和期刊上发表了 20 多篇论文，其中一些论文获得了重要奖项，如 OSDI 最佳论文奖和 NeurIPS 杰出论文奖。目前的研究兴趣包括分布式系统、云计算和深度学习算法和框架。

从混乱到秩序——揭秘生成式搜索背后的概率

栾小凡

Zilliz 合伙人兼技术总监

LF AI & Data 基金会技术咨询委员会成员。在加入 Zilliz 前，他在阿里云担任研发经理，负责 NoSQL 数据库 Lindorm 的研发工作。此前，他曾先后在美国甲骨文公司和软件定义存储公司 Hedvig 担任软件工程师。栾小凡拥有康奈尔大学计算机工程硕士学位。

腾讯云向量数据库的技术创新与最佳实践

伍旭飞

腾讯云资深工程师、NoSQL数据库研发团队负责人

拥有超过 15 年的行业经验，在互联网游戏开发和数据库领域具有丰富的实践经验和专业知识，专注数据库、AI 技术等领域。

阿里云向量检索增强大模型对话系统最佳实践

施晨

阿里云算法研究员、人工智能平台大模型架构师

本科和博士毕业于北京大学计算机系，多年工业界toC/toB对话系统研发经验，目前致力于大模型的研究与落地，在阿里云人工智能平台负责大模型向量检索增强、RLHF、大模型效果评估等。曾在ACL、EMNLP、SIGIR、NeurIPS等顶级会议发表论文10余篇，担任多个国际顶会程序委员会委员与审稿人，申请专利10余项。开源算法框架EasyNLP、大模型训练框架PAI-Megatron-Patch主要贡献者之一。

百度智能云 BES 在大规模向量检索场景的探索实践

刘轩

百度智能云 BES 技术负责人

具备多年大数据领域技术经验，从事可观察性建设、信息检索、向量数据库等方向的产品研发和实践。

茶歇

火山引擎向量数据库VikingDB技术演进及应用

高丽萍

火山引擎智能推荐和向量数据库产品负责人

2013 年毕业于清华大学，十余年大数据及算法产品经验，曾先后就职于联通集团总部、百度。

DingoDB 多模向量数据库：大模型时代的数据引擎

焦悦光

九章云极DataCanvas DingoDB 产品研发高级架构师

博士毕业于清华大学，现负责九章云极 DataCanvas 多模向量数据库 DingoDB 的研发工作，在通信、计算机软件行业有着丰富的开发经验。

搜索增强型（RAG）AI原生向量数据库AwaDB技术创新与实践

李洁

AwaDB 创始人

开源向量数据库 Vearch 创始人，前京东技术总监，中国信通院搜索型数据库标准制定专家组成员，长期负责软件基础设施方面核心系统及关键技术的研发与相关管理工作。以第一作者身份在国际中间件顶级会议 ACM Middleware 2018 上发表论文一篇，拥有发明专利 11 项。目前专注文本、图片和音视频等多模态数据 RAG（搜索增强）的向量数据库 AwaDB 的研发。

晚场活动：聊聊技术和职业规划

史业民

北京灵琐科技 CEO、Chinese Llama 2 7B 项目发起人

本科及博士毕业于北京大学，入选斯坦福大学发布的 2022 年度「全球前 2% 顶尖科学家榜单」，在人工智能领域顶会和学术期刊上发表论文 20 余篇；作为智源研究院 Z-lab 联合负责人，从事大模型相关算法研究与应用探索，参与了智源悟道 3.0 研发，是最大可商用中文指令数据集 COIG、COIG-PC 的发起者、组织者之一，也是音乐预训练大模型 MERT 的作者之一，曾获 CAMEO 蛋白质结构预测年度、季度、月度第一名。 GitHub 项目地址：https://github.com/LinkSoul-AI/Chinese-Llama-2-7b

刘道全

始智AI创始人兼CEO、清华校友总会AI大数据专委会副秘书长

具有技术、商业和金融的复合背景，具有丰富的生态建设运营经验。始智 AI 要打造中国版 Huggingface 社区，9月初上线 wisemodel.cn 社区，国内 100 多个主要开源模型已经上线。

GTE：预训练语言模型驱动的文本 Embedding

龙定坤

阿里巴巴通义实验室自然语言处理算法专家

本硕毕业于北京航空航天大学, 一直从事自然语言处理相关的研究和工业落地，研究方向主要包括基础词法、信息检索、预训练语言模型等。

jina-embeddings-v2：突破长文本向量化瓶颈，实现 8192 输入长度

王楠

Jina AI 联合创始人兼 CTO

博士毕业于德国波鸿鲁尔大学，先后担任德国知名电商 Zalando 高级数据科学家，腾讯高级研究员。Jina AI 的核心理念是成为从高级用户、开发者至各大企业的多模态 AI 通道，关键技术包括了提示词微调、语义向量模型调优和部署等。

圆桌：大模型时代向量数据库新未来

刘政

智源研究院基础模型中心研究员

曾任职微软亚洲研究院主管研究员、华为 2012 实验室技术专家。长期担任 ACL/EMNLP/KDD/WWW/NeurIPS/ICLR 等学术会议程序委员。累计发表学术会议及期刊论文数十篇。主导 BAAI General Embedding、RetroMAE 的模型算法的研发工作。

冯若航

磐吉云数创始人兼 CEO

Pigsty 作者 Pigsty - 开源RDS PostgreSQL (https://pigsty.cc)。PostgreSQL 中文社区开源技术委员/ KOL 曾任职于阿里巴巴/探探/ 苹果，资深数据库专家。PostgreSQL DBA、架构师、全栈开发者、开源贡献者。译著有《设计数据密集性应用》、《PostgreSQL指南：内幕探索》。

汤林鹏

墨奇科技联合创始人兼 CTO

从普林斯顿大学获得计算机博士学位以来，致力于构建创新的 AI 技术和产品，高效、精准、可靠地从海量非结构化数据重提取价值，研发包括 MyScale AI 数据库，数十亿级别的指纹图像搜索引擎，非接触指掌纹采集和保护隐私的生物识别应用等。在顶级的计算机系统和 AI 会议上（如 FAST/OSDI/KDD 等）已发表论文数十篇。

向量数据库在金融大模型落地中的挑战与思考

谭力鸣

星环科技高级产品经理

从事分布式数据库方面的研究工作，在向量数据库、搜索引擎等领域具有丰富的实践经验，主导和参与了泛金融、能源制造等多个行业上百个数据平台项目。

利用向量数据库搭建企业知识库的优化实践

姜勇

Dify.AI 首席架构师

负责 Dify.AI 最佳实践探索及架构设计。在软件工程、服务高可用和数据处理领域有较为丰富的经验；曾独立搭建类 Notion 的笔记型知识库后端服务，超百万使用量。躬耕于开发前线，喜欢前沿技术探索，坚信无事不可为。

茶歇

使用向量数据库快速构建本地轻量图片搜索引擎

苏洋

Chinese Llama 2 7B Contributor、大模型布道师

Llama 2 中文开源模型社区贡献者。GitHub 社区活跃用户，国内首个 Llama 2 中文版开源社区贡献者，GitHub 热榜八十行代码实现类似 Midjourney 官方 Describe 开源工具作者，双卡 Finetune Llama 一代 65B 模型，早期 ChatGPT 应用「hacker」，实现了 ChatGPT 自由接入数据源等工具。 GitHub 个人主页：https://github.com/soulteary

向量数据库在大模型时代的应用

马丽丽

亚马逊云科技数据库技术专家架构师

十几年来一直在数据库领域进行研究和产品创新：从IBM DB2、到 MPP 并行数据仓库Greenplum、到计算和存储解耦的 Apache HAWQ、再到云上数据库比如Amazon Aurora、ElastiCache和MemoryDB。在国际会议上发表多篇数据库方面学术论文（SIGMOD, GCC, SKG, PDCAT），并拥有多项国际专利。

本活动由百格活动提供技术支持