微软Researcher在Perplexity自研基准上胜出：双模型评审进Frontier，Cowork同步开放长任务代理

据 1M AI News 监测，微软通过 Frontier（企业用户预发布尝鲜计划，参与者可提前试用尚未正式上线的 Copilot 功能）同步开放两项 Microsoft 365 Copilot 新能力。

Researcher（Copilot 内置的深度研究 Agent）新增 Critique 和 Council 两种多模型协作模式。Critique 由 Anthropic 与 OpenAI 旗下模型协作：一个负责规划、检索和起草，另一个专门审核与精修，选中 Auto 时默认启用；Council 同样并行运行两家模型，各自生成完整报告，再由单独的评审模型汇总异同。微软使用 GPT-5.2 作为评判模型（原论文三种评判方法中最严格的一种），在 DRACO 基准（由 Perplexity 研究者发布的 100 道复杂研究题，覆盖 10 个领域）上测试 Critique，综合得分较基准中最优系统 Perplexity Deep Research（使用 Claude Opus 4.6）高 7.0 分，相对提升 13.88%。DRACO 原论文未收录 Critique，这是微软按相同评测协议自行测试所得的数据。

Copilot Cowork 面向更长的多步骤工作：先根据目标生成计划，再跨工具和文件逐步推进，过程中显示进度，用户可随时介入。微软以 Capital Group 为早期试用案例，称其已用于项目规划、排期、制作交付物和准备高管复盘。

原文链接

纠错/举报