微软HyperP：在208M模型上调一次学习率，全尺度都能用

据 1M AI News 监测，微软研究团队提出 HyperP（Hypersphere Parameterization），首个在超球面优化下实现学习率跨模型宽度、深度、训练数据量和 MoE 粒度全维度迁移的框架。核心做法是将权重矩阵约束在固定范数的超球面上，配合 Muon 优化器，只需在最小规模（2.08 亿参数）上调一次基础学习率，即可直接迁移至所有更大的计算预算。

论文有两个关键理论发现。第一，在 Frobenius 球面约束下，权重衰减（weight decay）在一阶近似上完全无效，可以直接删除，将超参数搜索空间从学习率和权重衰减的联合平面压缩到只剩学习率一个维度。第二，最优学习率随训练数据量的缩放遵循幂律关系，指数为 0.32，与此前在 AdamW 优化器上观察到的「magic exponent」完全一致，暗示这可能是梯度优化的普遍性质，与具体优化器无关。

实验结果上，在 6×10²¹ FLOPs 的计算预算下，HyperP 对 dense 模型的计算效率较强 Muon 基线（配合 μP++ 和权重衰减缩放）提升 1.58 倍，且优势随规模单调递增；配合论文提出的 SqrtGate 机制（一种保持输出 RMS 跨 MoE 粒度不变的门控方式）的 MoE 模型，效率进一步达到 dense 模型的 3.38 倍。稳定性方面，HyperP 实现了「可迁移的稳定性」：从 9.13 亿到 133 亿参数的 MoE 模型，所有六项训练不稳定指标（Z 值、输出 RMS、激活异常值比例等）均保持有界且不随规模增长。论文还反驳了 MuonH 原作者关于该优化器天然具备深度迁移性的说法，证明残差连接的累积角漂移使得 Depth-μP 仍然必要。代码已开源。

原文链接

纠错/举报