论文：强制AI逐行追踪代码执行路径，补丁验证准确率达93%，无需实际运行代码

据 1M AI News 监测，Meta 研究科学家 Shubham Ugare 等人近日在 arXiv 发表论文「Agentic Code Reasoning」，提出一种名为「半形式化推理」的结构化提示方法，要求 LLM 代理在分析代码时必须逐步列出前提、追踪每条执行路径并为每个结论提供代码证据，而非自由推理后直接给出判断。在判断真实世界代码补丁是否等价的任务中，该方法使 Claude Opus-4.5 的准确率从标准推理的 78% 提升至 89%，在有测试规格辅助的场景下达到 93%，均无需实际执行代码。在故障定位（Defects4J 基准）和代码问答（RubberDuckBench）任务中，准确率也分别提升约 5 和 9 个百分点。

论文指出，该方法的核心作用类似「证书」机制，迫使模型无法跳过逻辑分支或做出无依据的断言。值得注意的是，实验显示结构化提示对较弱模型（如 Sonnet-4.5）的提升不明显，表明该方法更多是帮助能力较强的模型充分发挥推理潜力。该研究的实际意义在于，企业可能无需为每个补丁搭建沙箱执行环境即可进行大规模自动化代码验证，从而降低 CI/CD 流水线的计算成本。

原文链接

纠错/举报