header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

微软Researcher在Perplexity自研基准上胜出:双模型评审进Frontier,Cowork同步开放长任务代理

1M AI News 监测,微软通过 Frontier(企业用户预发布尝鲜计划,参与者可提前试用尚未正式上线的 Copilot 功能)同步开放两项 Microsoft 365 Copilot 新能力。

Researcher(Copilot 内置的深度研究 Agent)新增 Critique 和 Council 两种多模型协作模式。Critique 由 Anthropic 与 OpenAI 旗下模型协作:一个负责规划、检索和起草,另一个专门审核与精修,选中 Auto 时默认启用;Council 同样并行运行两家模型,各自生成完整报告,再由单独的评审模型汇总异同。微软使用 GPT-5.2 作为评判模型(原论文三种评判方法中最严格的一种),在 DRACO 基准(由 Perplexity 研究者发布的 100 道复杂研究题,覆盖 10 个领域)上测试 Critique,综合得分较基准中最优系统 Perplexity Deep Research(使用 Claude Opus 4.6)高 7.0 分,相对提升 13.88%。DRACO 原论文未收录 Critique,这是微软按相同评测协议自行测试所得的数据。

Copilot Cowork 面向更长的多步骤工作:先根据目标生成计划,再跨工具和文件逐步推进,过程中显示进度,用户可随时介入。微软以 Capital Group 为早期试用案例,称其已用于项目规划、排期、制作交付物和准备高管复盘。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成