header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

RL微调让4B模型金融问答超越235B:Snorkel AI开源FinQA训练环境

1M AI News 监测,Snorkel AI 发布 FinQA,一个基于真实 SEC 10-K 财务文件构建的强化学习训练环境,现已开源于 Meta PyTorch 与 Hugging Face 联合维护的 OpenEnv 平台。FinQA 覆盖 22 家上市公司(包括 Alphabet、亚马逊、苹果、美国银行、波音)的 290 道专家标注财务问答,向 Agent 提供 4 个 MCP 工具:列出可用财务表、获取表结构、执行 SQL 查询、提交答案。SQL 强制要求过滤条件且禁止 `SELECT *`,迫使 Agent 只取所需数据,而非倾倒整张表。

Snorkel AI 与加州大学伯克利分校 rLLM 团队合作,用 FinQA 对 Qwen3-4B 进行强化学习微调,结果在金融问答基准 SnorkelFinance 上得分 59.7%,超过同系列 Qwen3-235B(51.37%),参数量约为后者的 1/60,推理成本降约 90%。关键发现:大模型能推理,但会产生幻觉列名、无视 SQL 约束;RL 训练后的小模型反而能精准调用工具,「工具纪律」而非规模才是瓶颈。

FinQA 是 Snorkel AI 在 OpenEnv 发布的首个开源环境,后续将推出覆盖医疗、保险、法律等行业的多轮次企业环境。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成