DA数智大会2025 · 上海站

活动首页 >日程安排

OpenSeek高质量数据集构建开源实践

时间： 04 月 25 日 16:00 - 16:45

内容介绍：

OpenSeek是由北京智源人工智能研究院（BAAI）发起的开源项目，旨在联合全球开源社区，推动算法、数据和系统的协同创新，开发出超越DeepSeek的下一代模型。该项目从Bigscience和OPT等大模型计划中汲取灵感，致力于构建一个开源自主的算法创新体系。自DeepSeek模型开源以来，学术界涌现出众多算法改进和突破，但这些创新往往缺乏完整的代码实现、必要的计算资源和高质量的数据支持。 OpenSeek项目期望通过联合开源社区，探索高质量数据集构建机制，推动大模型训练全流程的开源开放，构建创新的训练和推理代码以支持多种AI芯片，促进自主技术创新和应用发展。诚邀全球开发者深度参与OpenSeek项目，共同开发跨时代的下一代模型。

演讲大纲：

1. 数据来源准备

2. 数据合成

● 通用知识标签体系构建

● 原始语料标注、筛选

● 预训练QA数据合成

● 质量过滤

3. 数据预处理

● 去重

● 文档字符长度

● 质量分类器

听众收益：

1. 大模型全流程理解

2. 高质量数据处理Pipeline

3. 推理数据合成技术

4. 深度参与OpenSeek项目

日程嘉宾

刘广

智源研究院数据研究组负责人

智源人工智能研究院数据研究组的负责人，主导开发了悟道天鹰（Aquila）系列语言大模型，以及Infinity Instruct千万指令数据集系列等重要项目，目前正专注于基于大模型的数据合成技术的研究与应用，致力于推动该领域的技术进步和创新。

本活动由百格活动提供技术支持