-
日期: 2026-04-23 | 來源: 華爾街見聞 | 有0人參與評論 | 字體: 小 中 大
GPT-5.5在編程、科研與知識工作領域測試中全面超越Claude和Gemini,且以與前代相當的推理延遲實現更高智能。工程師實測直言"像在與更高層次智慧生物協作"。GPT-5.5周肆面向ChatGPT及編程工具Codex的付費用戶開放。
OpenAI推出迄今最強大模型GPT-5.5,在代碼編寫、科學研究及知識工作領域實現跨越式提升,同時以與前代模型相當的推理延遲實現更高智能水平,標志著AI從問答工具向自主完成復雜計算機任務的代理系統全面演進。
在模型能力上,GPT-5.5在Terminal-Bench 2.0編程測試、在衡量代理操控真實計算機環境的OSWorld-Verified基准和測試跨44種職業知識工作能力的GDPval基准等多重測試中均領先於Claude Opus 4.7及Gemini 3.1 Pro。
GPT-5.5即日起向ChatGPT的Plus、Pro、Business及Enterprise用戶開放,Codex平台同步推出。API定價方面,OpenAI表示,盡管GPT-5.5定價高於前代,但其更高的token效率使綜合使用成本具備競爭力。
OpenAI聯創兼總裁Greg Brockman表示,該模型能夠在指令有限的情況下自主處理任務,可調用郵件、表格、日歷等應用程序執行用戶命令。"它會自行想辦法解決,應對模糊情境,"他說,"這是壹種更直覺化的體驗。"
MagicPath CEO Pietro Schirano指出,GPT-5.5在約20分鍾內壹次性完成了壹次涵蓋數百項前端改動與重構更改的分支合並任務。其直言:“感覺就像是在和更高層次的智慧生物壹起工作,甚至會產生壹種敬畏之情。”
性能飛躍:更高智能,同等延遲
GPT-5.5的核心技術突破在於打破了"更強即更慢"的模型規律。OpenAI表示,GPT-5.5在實際服務環境中實現了與GPT-5.4相當的延遲,同時在多項基准測試中大幅領先前代。
在代理編程領域:
GPT-5.5在Terminal-Bench 2.0上得分82.7%,較GPT-5.4的75.1%提升顯著;在測試真實GitHub問題解決能力的SWE-Bench Pro上達到58.6%;在內部長周期編程任務基准Expert-SWE(任務中位完成時間約20小時)上同樣超越GPT-5.4。
值得關注的是,GPT-5.5在上述叁項測試中均以更少的token消耗實現了更高得分。
在計算機使用方面,GPT-5.5在OSWorld-Verified測試中以78.7%的成績領先Claude Opus 4.7的78.0%。在工具調用測試Tau2-bench Telecom中,GPT-5.5在無提示詞調優的條件下達到98.0%,而GPT-5.4僅為92.8%。
根據外部評估機構Artificial Analysis的編程綜合指數,GPT-5.5以約為競爭前沿編程模型壹半的成本實現了同等水平的智能表現。
工程實測:開發者體驗的質變
多位企業技術負責人的實測反饋顯示,GPT-5.5在實際工程場景中帶來的提升超出基准數字所能體現的范圍。
Every公司創始人兼CEO Dan Shipper描述了壹項測試:在壹次上線後排查數天未果的問題上,他用GPT-5.5重演故障狀態,模型生成的修復方案與其頂級工程師後來做出的系統重構決策高度吻合,而GPT-5.4未能做到。
Shipper稱GPT-5.5為"我用過的第壹個具有真正概念清晰度的編程模型"。
MagicPath CEO Pietro Schirano指出,GPT-5.5在約20分鍾內壹次性完成了壹次涵蓋數百項前端改動與重構更改的分支合並任務。其直言:
“感覺就像是在和更高層次的智慧生物壹起工作,甚至會產生壹種敬畏之情。”
Lovable聯合創始人兼CTO Fabian Hedin表示,身份驗證流程、實時同步及多文件編輯等過去需要多輪嘗試的任務,現在可以"壹次命中"。
NVIDIA壹名提前獲得訪問權限的工程師表示,"失去GPT-5.5的訪問權限,感覺就像被截去了壹條肢體。"
知識工作:從輔助工具到全流程代理
OpenAI將GPT-5.5的應用場景從編程擴展至更廣泛的知識工作領域,並以自身內部實踐作為佐證。
據OpenAI披露,目前超過85%的公司員工每周使用Codex,覆蓋軟件工程、財務、傳播、市場、數據科學及產品管理等部門。
財務團隊借助Codex審查了共24,771份、合計71,637頁的K-1稅務表格,相較上壹年度提前兩周完成任務;傳播團隊利用GPT-5.5構建了壹套演講請求評分與風險框架,實現了低風險請求的自動化處理。
GPT-5.5在多個反映此類工作的基准測試中均達到了最先進的性能。在GDPval 測試中,該測試旨在檢驗智能體在44個職業領域中生成明確知識型工作的能力,GPT-5.5 的得分為 84.9%。
在OSWorld-Verified 測試中,該測試旨在衡量模型能否獨立運行在真實的計算機環境中,其得分為 78.7%。在Tau2-bench Telecom測試中,該測試旨在檢驗復雜的客戶服務工作流程,其得分在未進行任何快速調優的情況下達到了 98.0%。
NVIDIA企業AI副總裁Justin Boitano表示,GPT-5.5幫助工程團隊將調試時間從數天壓縮至數小時,並將數周的實驗進程壓縮至壹夜完成,"這不僅是更快的編程,而是壹種幫助人們以根本不同速度工作的新方式"。
科研突破:從工具到"聯合科學家"
在科學研究領域,GPT-5.5在多項生物與數學基准上表現出顯著進步,OpenAI將其定位為能夠實質性加速生物醫學前沿研究的"聯合科學家"。
在專注於遺傳學與定量生物學多階段數據分析的GeneBench測試中,GPT-5.5得分25.0%,高於GPT-5.4的19.0%;GPT-5.5 Pro版本進壹步達到33.2%。
在生物信息學基准BixBench上,GPT-5.5以80.5%的成績在已公布成績的模型中排名領先,GPT-5.4為74.0%。
Jackson實驗室免疫學教授Derya Unutmaz使用GPT-5.5 Pro分析了壹組包含62個樣本、近28,000個基因的基因表達數據集,生成了詳盡的研究報告,涵蓋關鍵發現及新興洞察,他表示這項工作原本需要團隊數月時間完成。
在數學領域,OpenAI披露,搭配自定義運行框架的GPT-5.5內部版本協助發現了壹項關於非對角Ramsey數漸近性質的新證明,該結論隨後在Lean系統中獲得驗證。
OpenAI稱,這是模型在核心研究領域貢獻"出人意料且有實際價值的數學論證"的具體案例,而非僅停留於代碼生成或解釋層面。
安全機制:網絡安全能力列"高級",同步收緊訪問限制
隨著模型能力提升,OpenAI對GPT-5.5的安全框架亦進行了相應升級,並在網絡安全與生物/化學兩個領域將該模型的能力評級列為"高級"(High)。
OpenAI表示,在GPT-5.2首次引入網絡安全專項防護措施的基礎上,GPT-5.5進壹步部署了針對高風險活動的更嚴格分類器及重復濫用保護機制,部分用戶初期可能會遇到較多的訪問限制。
在網絡安全基准CyberGym上,GPT-5.5得分81.8%,高於GPT-5.4的79.0%及Claude Opus 4.7的73.1%。
與此同時,OpenAI推出"網絡安全可信訪問"(Trusted Access for Cyber)計劃,為通過特定信任條件驗證的用戶提供網絡安全功能的擴展訪問權限,並允許負責關鍵基礎設施防護的機構申請使用GPT-5.4-Cyber等模型。
OpenAI表示,該公司正與政府合作伙伴探討如何利用先進AI支持納稅人數據保護、電網及供水系統等關鍵基礎設施的網絡防御工作。
定價與可用性:API接口"即將"開放
在商業落地安排上,GPT-5.5目前通過ChatGPT和Codex分階段向不同用戶層級開放,API接口尚未全面就緒。
在ChatGPT中,GPT-5.5 Thinking面向Plus、Pro、Business及Enterprise用戶開放;GPT-5.5 Pro面向Pro、Business及Enterprise用戶開放。
在Codex平台,GPT-5.5面向Plus、Pro、Business、Enterprise、Edu及Go計劃用戶提供,上下文窗口為40萬tokens,並提供速度提升1.5倍、成本為標准價2.5倍的Fast模式。
API定價方面,標准版gpt-5.5定價為每百萬輸入tokens5美元、每百萬輸出tokens30美元,上下文窗口為100萬tokens;批量處理及彈性定價享半價優惠,優先處理定價為標准價格的2.5倍。
專業版gpt-5.5-pro定價為每百萬輸入tokens30美元、每百萬輸出tokens180美元。OpenAI表示,API接口將"很快"上線。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見