-
日期: 2026-04-23 | 來源: 華爾街見聞 | 有0人參與評論 | 字體: 小 中 大
工程實測:開發者體驗的質變
多位企業技術負責人的實測反饋顯示,GPT-5.5在實際工程場景中帶來的提升超出基准數字所能體現的范圍。
Every公司創始人兼CEO Dan Shipper描述了壹項測試:在壹次上線後排查數天未果的問題上,他用GPT-5.5重演故障狀態,模型生成的修復方案與其頂級工程師後來做出的系統重構決策高度吻合,而GPT-5.4未能做到。
Shipper稱GPT-5.5為"我用過的第壹個具有真正概念清晰度的編程模型"。
MagicPath CEO Pietro Schirano指出,GPT-5.5在約20分鍾內壹次性完成了壹次涵蓋數百項前端改動與重構更改的分支合並任務。其直言:
“感覺就像是在和更高層次的智慧生物壹起工作,甚至會產生壹種敬畏之情。”
Lovable聯合創始人兼CTO Fabian Hedin表示,身份驗證流程、實時同步及多文件編輯等過去需要多輪嘗試的任務,現在可以"壹次命中"。
NVIDIA壹名提前獲得訪問權限的工程師表示,"失去GPT-5.5的訪問權限,感覺就像被截去了壹條肢體。"
知識工作:從輔助工具到全流程代理
OpenAI將GPT-5.5的應用場景從編程擴展至更廣泛的知識工作領域,並以自身內部實踐作為佐證。
據OpenAI披露,目前超過85%的公司員工每周使用Codex,覆蓋軟件工程、財務、傳播、市場、數據科學及產品管理等部門。
財務團隊借助Codex審查了共24,771份、合計71,637頁的K-1稅務表格,相較上壹年度提前兩周完成任務;傳播團隊利用GPT-5.5構建了壹套演講請求評分與風險框架,實現了低風險請求的自動化處理。
GPT-5.5在多個反映此類工作的基准測試中均達到了最先進的性能。在GDPval 測試中,該測試旨在檢驗智能體在44個職業領域中生成明確知識型工作的能力,GPT-5.5 的得分為 84.9%。
在OSWorld-Verified 測試中,該測試旨在衡量模型能否獨立運行在真實的計算機環境中,其得分為 78.7%。在Tau2-bench Telecom測試中,該測試旨在檢驗復雜的客戶服務工作流程,其得分在未進行任何快速調優的情況下達到了 98.0%。
- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見