微软365 Copilot Researcher深度研究智能体重大更新 GPT先起草 Claude后批判 引入Critique功能实现多模型协作 准确性完整性显著提升

导读目录
更新内容
根据 黄金形态通APP 报道,美国科技巨头微软(MSFT.US)周一推出一项针对365 Copilot深度研究智能体(Researcher)的重大更新。该更新允许用户在同一项复杂研究任务中同时调用OpenAI的GPT大模型和Anthropic旗下的Claude大模型,实现多模型协作以提升输出质量。
此次更新聚焦于Researcher代理,新增名为“Critique”(批判)的功能,旨在解决单一模型在深度研究中可能出现的准确性、完整性和引证问题。通过不同模型的分工协作,微软希望为企业用户提供更可靠的研究报告和决策支持。
Critique功能
在实际操作中,“Critique”功能采用清晰的流程分工:首先由OpenAI的GPT模型负责展开研究、收集资料并生成初稿;随后,Anthropic的Claude模型遵循严格的学术研究评审流程,对初稿进行全面审查,包括事实准确性、内容完整性以及引证质量。
Claude审查完成后,将生成最终优化报告并回复给用户。这一“生成+批判”的模式有效分离了内容创作与质量把关环节,避免了单一模型可能存在的幻觉或遗漏问题,显著提高了复杂研究任务的可靠度。
技术原理
微软此次更新体现了多模型智能(multi-model intelligence)的实际应用。Researcher代理不再局限于单一供应商模型,而是根据任务需求智能调用不同大模型的优势。GPT擅长快速生成丰富内容,而Claude在逻辑严谨性、批判性思考和细节审查方面表现出色,两者结合形成互补。
除了Critique功能外,更新还包括Council等多模型能力,允许模型并行工作并由第三方进行差异对比。该架构建立在微软与OpenAI、安卓ropic的深度合作基础上,同时严格遵守企业级安全、合规和数据隐私要求,确保所有输出均 grounding 于用户的企业上下文。
实测表现
根据微软内部测试,在DRACO基准测试(涵盖医学、法律、技术等10个领域的100项复杂研究任务)中,配备Critique功能的Copilot Researcher得分达到57.4分,较Claude Opus 4.6单独表现提升显著,超越了包括Perplexity Deep Research在内的其他顶级系统。
这一结果表明,多模型协作模式在深度研究场景下具有明显优势,尤其适合需要高准确性和严谨引证的企业级应用场景。目前该功能已向加入Microsoft Frontier早期访问计划的用户开放,需要Microsoft 365 Copilot订阅。
多维对比
以下表格对比了新旧Researcher代理及与其他AI研究工具的差异:
| 维度 | 旧版Researcher | 新版Critique模式 | 单一模型工具(如Perplexity) |
|---|---|---|---|
| 模型使用方式 | 单一GPT或Claude | GPT生成+Claude批判 | 单一模型独立完成 |
| 质量控制机制 | 依赖模型自身 | 明确分离生成与评审 | 无外部评审环节 |
| DRACO基准得分 | 较低 | 57.4分(领先) | 约42-50分区间 |
| 适用场景 | 一般研究 | 复杂、专业深度研究 | 快速查询为主 |
| 企业级优势 | 基本合规 | 更高准确性与可信度 | 数据隐私控制较弱 |
编辑总结
微软在365 Copilot Researcher中引入Critique功能,标志着企业AI工具从单一模型依赖向多模型智能协作的转变。这一更新通过GPT与Claude的优势互补,显著提升了复杂研究任务的准确性、完整性和可信度,有望加速Copilot在企业工作流中的深度应用。未来效果将取决于实际企业场景验证及模型持续迭代情况。
常见问题解答
问:微软365 Copilot Researcher的Critique功能具体工作流程是怎样的?
答:流程分为两步:首先由OpenAI的GPT模型进行研究、收集信息并生成初稿;然后Anthropic的Claude模型对初稿进行学术式评审,检查事实准确性、内容完整性以及引证质量,最后生成优化后的报告回复用户。这种分工有效提高了输出可靠性。问:为什么微软要让GPT和Claude两个竞争对手模型在同一任务中协作?
答:GPT擅长快速生成内容,而Claude在批判性思考、逻辑严谨性和细节审查方面优势明显。微软通过这一设计实现模型优势互补,避免单一模型的局限性,提升整体研究质量,同时体现其作为平台方中立整合多家前沿模型的能力。问:Critique功能在实际测试中表现如何?
答:在DRACO基准测试中,配备Critique的Copilot Researcher得分达57.4分,较Claude Opus 4.6单独使用提升显著,超越Perplexity Deep Research等领先系统约13.88%。这证明多模型协作在复杂研究任务中具有明显优势。问:普通企业用户如何访问这一新功能?
答:目前Critique功能面向加入Microsoft Frontier早期访问计划的用户开放。用户需拥有Microsoft 365 Copilot订阅,并在Copilot设置中选择Researcher代理并启用多模型模式。未来预计将逐步向更多用户推送。问:这一更新对微软Copilot生态和企业AI应用有何战略意义?
答:该更新强化了Copilot作为企业级AI平台的定位,展示了多模型智能的实际价值,有助于提升用户对Copilot的信任度和采用率。同时,它也为未来更多模型协作场景奠定基础,推动AI从辅助工具向可靠研究伙伴的转变。
微软CEO纳德拉重磅访谈:自研MAI大模型夺回AI控制权 拒绝卖GPU赚快钱 预言SaaS转向订阅+按量付费
微软Build大会全栈押注AI智能体时代 Web IQ+Majorana 2量子芯片+Scout本地助手三大重磅发布
微软跌4.17% 特朗普AI模型审查令引发担忧 市场解读为短期情绪反应
微软股价涨2.28%成交241亿 AI新模型+Surface Laptop Ultra携手英伟达
微软Build 2026开发者大会6月2日开幕 发布代码专用AI模型反击Cursor与Claude Code
微软MSFT收涨5.45%成交346亿 与英伟达同步预热神秘新品 曲面屏硬件或亮相Build大会
微软涨3.47%成交198亿!Build大会推自研AI代码模型 挑战Cursor与Claude
盖茨基金会清仓最后770万股微软股票 价值32亿美元 比尔·盖茨个人仍持430亿美元MSFT
微软逆势上涨3.05%成交211亿 阿克曼大举建仓称估值极具吸引力 AI担忧被严重夸大
微软MSFT收跌3.93% 成交286.62亿美元 第三财季Azure云增长40% 但资本开支大幅上调至1900亿美元引发担忧
微软股价周一微涨0.05% 成交130.3亿美元 与OpenAI结束独家使用权协议 OpenAI可向亚马逊谷歌等云平台销售AI技术 双方合作进入新阶段
微软周四收跌3.97%成交158.99亿美元 首次推出自愿退休计划 面向美国工龄加年龄满70年及以上员工 AI转型背景下优化人力成本
微软(MSFT)收高1.46%成交135.4亿美元 Xbox Game Pass大降价23% 新使命召唤不再首发加入 服务战略首调
微软MSFT收涨4.61% 成交182.12亿美元 全面上调Surface Laptop与Surface Pro价格 旗舰型号涨幅高达50% 即刻生效
微软“龙虾”来了?Copilot拟引入开源AI智能体OpenClaw技术 目标打造全天候自主运行Agent 纳德拉重组Copilot列为优先事项
微软股价收涨3.64%成交133.16亿美元 OpenAI新任营收负责人备忘录力挺亚马逊联盟 称微软限制接触企业客户能力
微软谷歌同步发布新一代AI模型 微软MAI多模态系列加码自研 谷歌Gemma 4开源转向Apache 2.0
微软与雪佛龙及Engine No. 1排他性谈判 拟斥资70亿美元在得州建2500MW天然气发电厂 为大型数据中心园区供电
微软更新深度研究代理功能 GPT先制作初稿 Claude按学术评审审查准确性 推出Council机制多模型同步研究提炼共识
微软MSFT冻结Azure及北美销售新增招聘 员工规模或长期维持稳定 AI投入下严控成本





