header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

让AI画图前先「想一想」:字节Seed提出UniGRPO,统一优化推理与图像生成

1M AI News 监测,香港中文大学和字节跳动 Seed 团队提出 UniGRPO,一个将文本推理和图像生成纳入同一强化学习回路的统一框架。核心思路是让图像生成模型在画图前先进行链式推理(chain-of-thought),扩展用户提示词,然后用 GRPO 算法同时优化「想」和「画」两个阶段,而非分开训练。

框架基于字节 Seed 的多模态模型 Bagel 构建,将「提示词 → 推理 → 图像」的完整流程建模为一个马尔可夫决策过程(MDP),文本部分使用标准 GRPO,图像部分使用 FlowGRPO。为使框架可扩展至多轮交互和多条件生成(如图像编辑),研究者对 FlowGRPO 做了两处改进:去掉训练阶段的 classifier-free guidance(CFG),消除分支计算开销,保持线性无分支的生成路径;用速度场上的 MSE 惩罚替代潜空间 KL 散度,更均匀地约束模型偏离预训练分布,有效抑制奖励黑客(reward hacking)。

实验以 1024 分辨率训练,UniGRPO 在文本对齐评测(TA Score 0.8381)和组合生成评测 GenEval(0.90)上均优于仅优化图像的 FlowGRPO(0.8208/0.86)和仅优化推理的 TextGRPO(0.8078/0.88),证实联合优化两阶段的增益大于分别优化之和。基于 FPO 的替代方案 UniFPO 训练直接崩溃,未能收敛,侧面验证了 GRPO 在此场景下的稳定性优势。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成