-
日期: 2026-04-23 | 來源: 華爾街見聞 | 有0人參與評論 | 字體: 小 中 大
GPT-5.5在編程、科研與知識工作領域測試中全面超越Claude和Gemini,且以與前代相當的推理延遲實現更高智能。工程師實測直言"像在與更高層次智慧生物協作"。GPT-5.5周肆面向ChatGPT及編程工具Codex的付費用戶開放。
OpenAI推出迄今最強大模型GPT-5.5,在代碼編寫、科學研究及知識工作領域實現跨越式提升,同時以與前代模型相當的推理延遲實現更高智能水平,標志著AI從問答工具向自主完成復雜計算機任務的代理系統全面演進。
在模型能力上,GPT-5.5在Terminal-Bench 2.0編程測試、在衡量代理操控真實計算機環境的OSWorld-Verified基准和測試跨44種職業知識工作能力的GDPval基准等多重測試中均領先於Claude Opus 4.7及Gemini 3.1 Pro。
GPT-5.5即日起向ChatGPT的Plus、Pro、Business及Enterprise用戶開放,Codex平台同步推出。API定價方面,OpenAI表示,盡管GPT-5.5定價高於前代,但其更高的token效率使綜合使用成本具備競爭力。
OpenAI聯創兼總裁Greg Brockman表示,該模型能夠在指令有限的情況下自主處理任務,可調用郵件、表格、日歷等應用程序執行用戶命令。"它會自行想辦法解決,應對模糊情境,"他說,"這是壹種更直覺化的體驗。"
MagicPath CEO Pietro Schirano指出,GPT-5.5在約20分鍾內壹次性完成了壹次涵蓋數百項前端改動與重構更改的分支合並任務。其直言:“感覺就像是在和更高層次的智慧生物壹起工作,甚至會產生壹種敬畏之情。”
性能飛躍:更高智能,同等延遲
GPT-5.5的核心技術突破在於打破了"更強即更慢"的模型規律。OpenAI表示,GPT-5.5在實際服務環境中實現了與GPT-5.4相當的延遲,同時在多項基准測試中大幅領先前代。
在代理編程領域:
GPT-5.5在Terminal-Bench 2.0上得分82.7%,較GPT-5.4的75.1%提升顯著;在測試真實GitHub問題解決能力的SWE-Bench Pro上達到58.6%;在內部長周期編程任務基准Expert-SWE(任務中位完成時間約20小時)上同樣超越GPT-5.4。
值得關注的是,GPT-5.5在上述叁項測試中均以更少的token消耗實現了更高得分。
在計算機使用方面,GPT-5.5在OSWorld-Verified測試中以78.7%的成績領先Claude Opus 4.7的78.0%。在工具調用測試Tau2-bench Telecom中,GPT-5.5在無提示詞調優的條件下達到98.0%,而GPT-5.4僅為92.8%。
根據外部評估機構Artificial Analysis的編程綜合指數,GPT-5.5以約為競爭前沿編程模型壹半的成本實現了同等水平的智能表現。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見