据 1M AI News 监测,上海交通大学 GAIR 实验室发布 daVinci-LLM,一个 30 亿参数的语言模型,从零开始在 8 万亿 token 上训练,19 项基准测试综合得分 51.72,与参数量约为其 2.3 倍的 AI2 开源模型 OLMo-3 7B(51.65)基本持平。数学推理提升尤为显著,MATH 基准达 62.8 分,超过 OLMo-3 7B 的 39.6 分逾 23 个百分点。
与商业公司只放权重不讲细节的做法不同,daVinci-LLM 完整公开了数据处理流程、训练超参数、每 5000 步保存的中间检查点,以及 200 多组消融实验结果(包括失败的实验)。团队称,目标是将预训练从经验驱动推向循证科学。
论文提出 Data Darwinism 数据处理分级框架,将数据处理操作从基础过滤到内容合成分为 L0 至 L9 十个层级。模型训练分两阶段:第一阶段用 6 万亿 token 建立通用基础能力,第二阶段用 2 万亿 token 切换到以推理为主的数据配比,结构化问答数据在最后 1 万亿 token 中占比升至 70%。消融实验显示,提升数据处理深度对模型能力的增益与扩大数据规模同等重要,在数学推理等任务上甚至更高效:L4 级别的内容精炼在 MATH 基准上带来 7 分提升,优于单纯堆量。