RL微调让4B模型金融问答超越235B：Snorkel AI开源FinQA训练环境

据 1M AI News 监测，Snorkel AI 发布 FinQA，一个基于真实 SEC 10-K 财务文件构建的强化学习训练环境，现已开源于 Meta PyTorch 与 Hugging Face 联合维护的 OpenEnv 平台。FinQA 覆盖 22 家上市公司（包括 Alphabet、亚马逊、苹果、美国银行、波音）的 290 道专家标注财务问答，向 Agent 提供 4 个 MCP 工具：列出可用财务表、获取表结构、执行 SQL 查询、提交答案。SQL 强制要求过滤条件且禁止 `SELECT *`，迫使 Agent 只取所需数据，而非倾倒整张表。

Snorkel AI 与加州大学伯克利分校 rLLM 团队合作，用 FinQA 对 Qwen3-4B 进行强化学习微调，结果在金融问答基准 SnorkelFinance 上得分 59.7%，超过同系列 Qwen3-235B（51.37%），参数量约为后者的 1/60，推理成本降约 90%。关键发现：大模型能推理，但会产生幻觉列名、无视 SQL 约束；RL 训练后的小模型反而能精准调用工具，「工具纪律」而非规模才是瓶颈。

FinQA 是 Snorkel AI 在 OpenEnv 发布的首个开源环境，后续将推出覆盖医疗、保险、法律等行业的多轮次企业环境。

原文链接

纠错/举报