让AI画图前先「想一想」：字节Seed提出UniGRPO，统一优化推理与图像生成

据 1M AI News 监测，香港中文大学和字节跳动 Seed 团队提出 UniGRPO，一个将文本推理和图像生成纳入同一强化学习回路的统一框架。核心思路是让图像生成模型在画图前先进行链式推理（chain-of-thought），扩展用户提示词，然后用 GRPO 算法同时优化「想」和「画」两个阶段，而非分开训练。

框架基于字节 Seed 的多模态模型 Bagel 构建，将「提示词 → 推理 → 图像」的完整流程建模为一个马尔可夫决策过程（MDP），文本部分使用标准 GRPO，图像部分使用 FlowGRPO。为使框架可扩展至多轮交互和多条件生成（如图像编辑），研究者对 FlowGRPO 做了两处改进：去掉训练阶段的 classifier-free guidance（CFG），消除分支计算开销，保持线性无分支的生成路径；用速度场上的 MSE 惩罚替代潜空间 KL 散度，更均匀地约束模型偏离预训练分布，有效抑制奖励黑客（reward hacking）。

实验以 1024 分辨率训练，UniGRPO 在文本对齐评测（TA Score 0.8381）和组合生成评测 GenEval（0.90）上均优于仅优化图像的 FlowGRPO（0.8208/0.86）和仅优化推理的 TextGRPO（0.8078/0.88），证实联合优化两阶段的增益大于分别优化之和。基于 FPO 的替代方案 UniFPO 训练直接崩溃，未能收敛，侧面验证了 GRPO 在此场景下的稳定性优势。

原文链接

纠错/举报