活动首页 >日程安排

OpenSeek高质量数据集构建开源实践

时间: 04 月 25 日 16:00 - 16:45
内容介绍:

OpenSeek是由北京智源人工智能研究院(BAAI)发起的开源项目,旨在联合全球开源社区,推动算法、数据和系统的协同创新,开发出超越DeepSeek的下一代模型。 该项目从Bigscience和OPT等大模型计划中汲取灵感,致力于构建一个开源自主的算法创新体系。 自DeepSeek模型开源以来,学术界涌现出众多算法改进和突破,但这些创新往往缺乏完整的代码实现、必要的计算资源和高质量的数据支持。 OpenSeek项目期望通过联合开源社区,探索高质量数据集构建机制,推动大模型训练全流程的开源开放,构建创新的训练和推理代码以支持多种AI芯片,促进自主技术创新和应用发展。诚邀全球开发者深度参与OpenSeek项目,共同开发跨时代的下一代模型。

演讲大纲:

1.  数据来源准备

2.  数据合成

● 通用知识标签体系构建

● 原始语料标注、筛选

● 预训练QA数据合成

● 质量过滤

3.  数据预处理

● 去重

● 文档字符长度

● 质量分类器

听众收益:

1.  大模型全流程理解

2.  高质量数据处理Pipeline

3.  推理数据合成技术

4.  深度参与OpenSeek项目

日程嘉宾
DA数智大会2025 · 上海站
刘广
智源研究院 数据研究组负责人

智源人工智能研究院数据研究组的负责人,主导开发了悟道天鹰(Aquila)系列语言大模型,以及Infinity Instruct千万指令数据集系列等重要项目,目前正专注于基于大模型的数据合成技术的研究与应用,致力于推动该领域的技术进步和创新。