OpenSeek高质量数据集构建开源实践
OpenSeek是由北京智源人工智能研究院(BAAI)发起的开源项目,旨在联合全球开源社区,推动算法、数据和系统的协同创新,开发出超越DeepSeek的下一代模型。 该项目从Bigscience和OPT等大模型计划中汲取灵感,致力于构建一个开源自主的算法创新体系。 自DeepSeek模型开源以来,学术界涌现出众多算法改进和突破,但这些创新往往缺乏完整的代码实现、必要的计算资源和高质量的数据支持。 OpenSeek项目期望通过联合开源社区,探索高质量数据集构建机制,推动大模型训练全流程的开源开放,构建创新的训练和推理代码以支持多种AI芯片,促进自主技术创新和应用发展。诚邀全球开发者深度参与OpenSeek项目,共同开发跨时代的下一代模型。
演讲大纲:
1. 数据来源准备
2. 数据合成
● 通用知识标签体系构建
● 原始语料标注、筛选
● 预训练QA数据合成
● 质量过滤
3. 数据预处理
● 去重
● 文档字符长度
● 质量分类器
听众收益:
1. 大模型全流程理解
2. 高质量数据处理Pipeline
3. 推理数据合成技术
4. 深度参与OpenSeek项目
智源人工智能研究院数据研究组的负责人,主导开发了悟道天鹰(Aquila)系列语言大模型,以及Infinity Instruct千万指令数据集系列等重要项目,目前正专注于基于大模型的数据合成技术的研究与应用,致力于推动该领域的技术进步和创新。