不藏着掖着做预训练：3B模型跑出7B成绩，200+实验全公开

据 1M AI News 监测，上海交通大学 GAIR 实验室发布 daVinci-LLM，一个 30 亿参数的语言模型，从零开始在 8 万亿 token 上训练，19 项基准测试综合得分 51.72，与参数量约为其 2.3 倍的 AI2 开源模型 OLMo-3 7B（51.65）基本持平。数学推理提升尤为显著，MATH 基准达 62.8 分，超过 OLMo-3 7B 的 39.6 分逾 23 个百分点。

与商业公司只放权重不讲细节的做法不同，daVinci-LLM 完整公开了数据处理流程、训练超参数、每 5000 步保存的中间检查点，以及 200 多组消融实验结果（包括失败的实验）。团队称，目标是将预训练从经验驱动推向循证科学。

论文提出 Data Darwinism 数据处理分级框架，将数据处理操作从基础过滤到内容合成分为 L0 至 L9 十个层级。模型训练分两阶段：第一阶段用 6 万亿 token 建立通用基础能力，第二阶段用 2 万亿 token 切换到以推理为主的数据配比，结构化问答数据在最后 1 万亿 token 中占比升至 70%。消融实验显示，提升数据处理深度对模型能力的增益与扩大数据规模同等重要，在数学推理等任务上甚至更高效：L4 级别的内容精炼在 MATH 基准上带来 7 分提升，优于单纯堆量。

原文链接

纠错/举报