微軟在 Microsoft 365 Copilot 的深度研究代理 Researcher 中引入了 Critique,這是一個全新的多模型深度研究系統,這是微軟為使 Copilot 在嚴肅的知識工作中更可靠(而不僅僅是快速草稿)而採取的更廣泛舉措的一部分。
微軟表示,Critique 專為複雜的科研任務而設計,其工作原理是將工作分為兩部分:一個模型負責規劃、檢索、綜合和撰寫,而另一個模型則在最終報告生成前對輸出結果進行審查和完善。微軟稱,該系統使用了來自前沿實驗室的模型,包括 OpenAI 以及 Anthropic,現在可以透過該公司的 Frontier 計劃獲得。
路透社報道稱,在 Critique 目前的架構下, OpenAI“ GPT 系統產生回覆後,Anthropic 的 Claude 會審核回覆的準確性和質量,之後才會將答案傳送給使用者。微軟也表示,希望未來能實現雙向審核,讓模型之間可以雙向互評。
微軟自身的描述清楚地表明,「評論」功能並非只是一個裝飾性的功能或一個隨意添加的新按鈕。 副駕駛它內建於 Microsoft 365 Copilot 的 Researcher 模組中,專為深度任務而設計,在這些任務中,準確性與速度同樣重要。一個模型負責挖掘資訊並撰寫報告初稿,而另一個模型則像編輯一樣介入,核實事實、完善結構,並幫助將其打造成更可靠的最終版本。
微軟表示,其核心理念在於將生成和評估分開,而不是要求一個模型同時完成腦力激盪、撰寫、事實查核和潤飾等所有工作。這種區分至關重要,因為許多人工智慧失敗恰恰源自於單一模型的瓶頸。當要求單一系統完成所有工作時,它可能會產生看似完美無瑕的內容,但實際上卻可能忽略了漏洞、誇大其詞或依賴於薄弱的證據。
微軟表示,Critique 的審核層是基於評分標準,注重資訊來源的可靠性、報告的完整性和嚴格的證據基礎。簡單來說,第二個模型旨在檢驗草稿是否真正回答了問題,資訊來源是否可靠,以及最終的敘述是否有理有據,而不僅僅是聽起來自信滿滿。
微軟此次公告中一個較為重要的細節是,當在模型選擇器中選擇「自動」時,「評論」將成為 Researcher 的預設體驗。這表明微軟認為這項功能不僅僅是高級用戶可選的實驗室功能,而是將多模型審查作為 Microsoft 365 Copilot 中深度研究品質的新基準。這是一個意義重大的產品選擇,因為它表明微軟認為企業客戶更重視的是更少的臆測、更嚴謹的結構以及對最終報告更高的信心,而不是單純的回應速度。
這與微軟圍繞 Microsoft 365 Copilot 第三階段的整體宣傳策略完美契合。微軟一直強調 Copilot 是一個“工作系統”,它是基於多模型優勢而非任何單一的 AI 實驗室構建而成。在微軟的描述中,Copilot 旨在從整個行業中汲取最佳可用智能,並透過其所謂的「工作智能」(Work IQ)將其應用於實際工作場景,同時受到企業資料控制的保護。 「批判性思維」(Critique)正是這項策略從行銷語言轉化為切實可見的產品功能的最清晰例證之一。
微軟不僅表示 Critique 的使用體驗更佳,還指出該系統在正式基準測試中表現更為出色。在其技術文件中,微軟表示他們使用 DRACO 基準測試對 Critique 進行了測試。 DRACO 是「深度研究準確性、完整性和客觀性」(Deep Research Accuracy, Completeness, and Objectivity)的縮寫,涵蓋 10 個領域共 100 項複雜的研究任務。微軟表示,評估標準包括事實準確性、分析的廣度和深度、呈現品質以及引用質量,結果顯示 Critique 在所有四項指標上均優於 Researcher 的單模型版本。
該公司強調,分析的廣度和深度提升最為顯著,其次是演示品質和事實準確性。該公司還表示,這些改進具有統計意義,「Researcher with Critique」的綜合得分提高了7.0分,比Perplexity Deep Research(Claude Opus 4.6模型)高出13.88%,而微軟稱Perplexity Deep Research是基準測試報告中報告的最佳系統。
數據 | 來源: Microsoft微軟
這是一個引人注目的說法,尤其是在深度研究競賽已成為企業人工智慧領域競爭最激烈的戰場之一的情況下。如今,評判研究工具的標準不再只是它們能否收集信息,而是它們能否產生足以用於決策的報告。
微軟的論點是,審查層迫使研究人員發現缺失的角度、加強組織結構、質疑薄弱的論斷,並更謹慎地使用引用。客戶在實際工作流程中能否體驗到這些優勢,比基準測試圖表更為重要,但微軟顯然試圖表明,這是一次可衡量的品質提升,而非一次模糊的模型更新。
評論功能並非微軟此次更新中推出的唯一功能。該公司還在 Researcher 中推出了 Council,這是一個多模型比較模式。微軟表示,Council 運行 Anthropic 和 OpenAI 此模型可同時運行多個模型,每個模型都能產生一份完整的獨立報告。然後,另一個獨立的評判模型會產生一份精簡的摘要,展示各報告的共同點、分歧點以及各自的獨特貢獻。微軟支援團隊將此模式稱為“模型委員會”,該模式既保留了完整的報告,又添加了對比摘要,幫助用戶判斷哪個輸出結果更優,或如何將它們結合起來。
這為企業人工智慧的未來發展方向發出了一個非常有趣的訊號。一段時間以來,業界似乎都在追求找到一個能夠取代所有其他模型的單一模型。而微軟的最新舉措表明,更現實的未來可能是,企業不再對任何單一模式抱持足夠的信任,使其成為決策的唯一依據。
這次評論的發佈時機並非偶然。隨著競爭加劇,微軟一直面臨著證明 Microsoft 365 Copilot 變得更有用、更具差異化、更有價值的壓力。
路透社 微軟推出 Critique 和 Council 功能,旨在提升 Copilot 在市場上的普及率。同時,包括Google的 Gemini 和 Anthropic 的 Claude 在內的競爭對手也大力進軍職場人工智慧領域。 Axios 也指出,微軟的多模型策略還有另一個好處:它表明該公司並未過度依賴單一模型。 OpenAI 在當前前沿模式領導層可能迅速轉變的時代。
Source link