-
日期: 2025-11-25 | 來源: 騰訊科技 | 有0人參與評論 | 字體: 小 中 大

11月25日凌晨,Anthropic發布了其迄今最強大的AI模型Claude Opus 4.5。該公司宣稱,新模型在軟件工程任務上實現了“最先進性能”,進壹步加劇了其與OpenAI、谷歌等對手之間的競爭。
Claude Opus 4.5在Anthropic軟件工程測試中表現出色,得分超越Gemini 3 Pro、GPT-5.1等壹眾對手。
圖:Claude Opus 4.5在SWE Bench軟件工程測試中的性能表現
公司數據顯示,該模型在SWE-bench Verified(壹項評估現實世界軟件工程能力的基准測試)中達到了80.9%的准確率,表現超越了OpenAI的GPT-5.1-Codex-Max(77.9%)、Anthropic自家的Sonnet 4.5(77.2%)以及谷歌的Gemini 3 Pro(76.2%)。
同時,Anthropic大幅下調了這款模型的定價:輸入token降至每百萬5美元,輸出token為每百萬25美元,較前代產品Claude Opus 4.1(輸入15美元/百萬,輸出75美元/百萬)下降約叁分之贰。
降價使得尖端AI技術對廣大開發者和企業更加觸手可及,同時也給競爭對手帶來了性能與價格的雙重壓力。
在現實任務中展現更優判斷力
測試人員普遍反饋,新模型在各種任務中展現出更強的判斷力與直覺。他們將這種進步描述為:模型開始領悟現實情境中的“關鍵所在”。
“這個模型好像突然‘開竅’了,”開發者關系負責人阿爾伯特表示,“它在處理許多現實問題時表現出的直覺和判斷力,讓人感覺相比前代模型實現了壹次質的跨越。”
阿爾伯特以自身工作為例進壹步說明:過去他僅利用AI收集信息,而對它們的整合與優先級排序能力持保留態度。如今,借助Opus 4.5,他已開始委托更完整的任務,通過連接Slack和內部文檔,模型能生成與他預期高度契合的連貫摘要。
賓夕法尼亞大學沃頓商學院教授、生成式AI實驗室聯合主任伊桑·莫利克測試後評論道,新模型的能力確實處於技術前沿。其最顯著的提升在於實際應用,例如跨軟件操作(如用Excel制作PPT)。
- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見