-
日期: 2026-03-06 | 來源: 騰訊科技 | 有0人參與評論 | 字體: 小 中 大

手捧GPT-5.4的奧特曼。圖片由AI生成
文|曉靜
編輯|徐青陽
北京時間3月6日凌晨,OpenAI正式發布新壹代旗艦模型GPT-5.4,官方定位為"專為專業工作而設計的最強且最高效的前沿模型"。
比起“更強更快”的常規敘事,這次發布真正值得關注的是模型角色的轉變:GPT-5.4是壹個為Agent而生的模型。它首次將原生計算機操控能力融入通用模型,並同時整合了GPT-5.3-Codex級別的編程能力、百萬Token上下文窗口和工具搜索機制——據官方介紹,沒有為整合而犧牲任何單項能力。過去讓AI操作電腦需要依賴專用的Computer Use Agent,現在編程、操控電腦、調用工具由同壹個模型壹並完成。
跑分印證了這壹點:GDPval基准測試中,GPT-5.4在83%的任務上達到或超過行業專業人士水平;OSWorld桌面操控測試成功率75%,首次超過人類基線(72.4%);編程能力與GPT-5.3-Codex持平,世界知識比GPT-5.2更強。
價格方面,GPT-5.4的API定價為輸入$2.50/百萬Token、輸出$15,約為Claude Opus 4.6($5/$25)的壹半,且支持訂閱額度調用。不過Pro版依然很貴——有網友僅發了壹句"Hi",GPT-5.4 Pro就認真推理了壹番,直接燒掉80美元。日常輕量任務,標准版可能是更明智的選擇。
在ChatGPT中,GPT-5.4以“GPT-5.4 Thinking”形式上線,逐步取代GPT-5.2 Thinking(後者將保留3個月,於2026年6月5日正式退役)。新增的前置思路概述功能讓用戶可以在模型執行過程中隨時介入調整方向,網頁版和Android已上線,iOS即將跟進。
如果用壹句話概括GPT-5.4的意義,過去幾年大模型的進化邏輯是"哪塊短板補哪塊",GPT-5.4不再單點拔高,而是把所有能力整合進同壹個模型做系統性優化。壹個能寫代碼的模型是工具,壹個能寫代碼、打開瀏覽器查文檔、調用API驗證結果、再把輸出整理成報告的模型,是工作系統。GPT-5.4更接近後者。
01 在83%的任務中達到或超過行業專業人士水平
GPT?5.4 與前代模型在多項專業能力基准測試中的表現對比
為了評估模型在真實工作環境中的表現,OpenAI使用GDPval基准測試,這項測試要求模型完成完整職業任務,而不僅僅是問答。GDPval覆蓋美國GDP貢獻最大的九個行業和肆拾肆種職業場景,包括制作銷售演示文稿、建立會計電子表格、安排醫院急診排班、繪制制造流程圖或生成短視頻內容。
GPT?5.4 與前代模型在GDPval基准測試中的對比
在測試中,GPT?5.4在83%的任務中達到或超過行業專業人士水平,而GPT?5.2僅為70.9%。模擬初級投行分析師的電子表格建模測試中,GPT?5.4平均得分87.3%,GPT?5.2為68.4%。演示文稿生成任務中,人類評測者68%情況下更偏好GPT?5.4的輸出,理由是視覺設計更成熟、結構更清晰、圖像使用更合理。
招聘平台Mercor在面向專業服務工作的APEX-Agents評測中也得出類似結論。CEO布倫丹·富迪(Brendan Foody)表示,GPT?5.4在生成財務模型、法律分析和完整幻燈片等長期交付成果方面表現突出,同時運行速度更快,成本低於同級前沿模型。
OpenAI還推出了ChatGPT Excel插件,使企業用戶能夠在Excel中直接調用模型,實現AI與傳統辦公軟件的無縫協作。


GPT?5.4電子表格、演示文稿和文檔創建及編輯能力的提升
OpenAI特別關注GPT?5.4在電子表格、演示文稿和文檔創建及編輯能力上的提升。在壹項內部電子表格建模測試中,GPT?5.4的平均得分達到87.3%,顯著高於GPT?5.2的68.4%。在演示文稿評估中,人類評測者在68%的情況下更偏好GPT?5.4生成的內容,認為其視覺設計更成熟、結構更清晰、視覺變化更豐富,同時圖像生成的運用也更為有效。
02 原生“操作”電腦
GPT?5.4的最大亮點或許並非編程,而是計算機操控能力的原生整合。過去,模型要操作電腦通常需要專用的Computer Use Agent,而GPT?5.4首次將這壹能力直接融入通用模型。它不僅可以編寫控制計算機的軟件腳本,還能根據屏幕截圖直接發出鼠標點擊和鍵盤輸入指令,從而完成跨應用程序的復雜操作。
GPT?5.4與GPT?5.2在OSWorld-Verified測試中的表現
在OSWorld-Verified測試中,GPT?5.4通過截圖識別桌面界面並執行鍵鼠操作的成功率達到75%,明顯高於GPT?5.2的47.3%,甚至略高於人類平均水平72.4%。在WebArena-Verified瀏覽器操控測試中,成功率為67.3%,高於GPT?5.2的65.4%。僅通過截圖理解網頁結構的Online-Mind2Web測試中,成功率達到92.8%,遠高於ChatGPT Atlas智能體模式的約70%。
房地產數據公司Mainstay對這壹能力進行了大規模實測。覆蓋約叁萬個HOA和房產稅門戶網站的測試中,GPT?5.4首次嘗試成功率95%,叁次以內成功率100%,任務完成速度提升約叁倍,Token消耗減少約70%。這意味著基於GPT?5.4的自動化系統(如RPA)在可靠性和成本上可能發生根本性變化。
03 視覺理解與文檔解析能力顯著提升
GPT?5.4與GPT?5.2在MMMU-Pro和OmniDocBench測試中的表現
除了計算機操控能力,GPT?5.4在視覺理解和文檔解析方面也有進步。在內部 MMMU-Pro 測試中(無需外部工具輔助),GPT?5.4的視覺理解准確率達到81.2%,高於GPT?5.2的79.5%;在含工具輔助的測試中,GPT?5.4進壹步提升至82.1%,同樣優於前代模型。
這表明模型不僅能操作電腦,還能更准確地識別屏幕信息和解析文檔內容,為長周期、多步驟的辦公任務提供支持。
在OmniDocBench文檔解析測試中,GPT?5.4的平均歸壹化編輯距離為0.11,低於GPT?5.2的0.14,顯示出更高的解析精度和生成文檔的准確性。
這意味著GPT?5.4在處理復雜文檔內容時,能夠更好地理解結構、保持信息完整,同時減少錯誤,為企業辦公、數據分析和報告生成提供可靠支撐。
此外,OpenAI對高分辨率和高密度圖像的處理能力也有所增強。從GPT?5.4開始,模型支持“原始圖像輸入細節”模式,可處理總量最高達1024萬像素或最大邊長6000像素的全保真圖像;“高細節”模式支持最高256萬像素或最大邊長2048像素。
這使得模型在目標定位、圖像理解及點擊精度方面表現更佳,同時提升了文檔生成、演示文稿和圖表的質量。
04 編程與工具生態進壹步強化
GPT?5.4與GPT?5.3-Codex的編程能力對比圖
在編程能力方面,GPT?5.4與GPT?5.3-Codex相當甚至略優,同時在延遲和Token效率上有顯著提升。在SWE-Bench Pro測試中,GPT?5.4得分57.7%,GPT?5.3-Codex為56.8%,GPT?5.2為55.6%。Codex中的/fast模式可將Token生成速度提升1.5倍,使開發者在迭代和調試過程中保持流暢工作節奏。
OpenAI還發布了實驗性Codex技能Playwright(交互版),允許模型在構建Web應用時自動運行瀏覽器測試,對生成界面和功能進行可視化調試。
簡單說,這個實驗技能讓 GPT-5.4 從“只會寫代碼”升級到“能自己打開瀏覽器玩自己寫的游戲、發現問題再改代碼”,特別適合生成像這種高度交互、視覺反饋強的 Web 小游戲或應用。
OpenAI展示了壹個典型案例:GPT-5.4 僅憑壹條簡短提示詞,就生成了壹個完整的等距視角主題公園模擬游戲。游戲包含基於瓦片的路徑鋪設與景點建設系統,游客 AI 可自主尋路並排隊,系統同時實時更新資金、游客數量、滿意度和清潔度肆項關鍵指標。
Playwright Interactive 在此過程中執行多輪自動化測試,驗證路徑鋪設、攝像機導航、游客行為以及界面指標的准確性。從代碼生成到測試驗收,整個開發流程完全由模型獨立完成。
博主Angel同樣用GPT-5.4寫了壹個Minecraft克隆版,模型花了約24分鍾,運行流暢,過程中沒有卡住。他在推文裡寫道:“Minecraft 基本上被攻克了,我現在得找個新測試了。”
GPT-5.4在BrowseComp測試中的表現
此外,GPT?5.4在網頁搜索和信息整合能力上也有顯著提升。在BrowseComp測試中(衡量 AI 代理持續瀏覽網頁以尋找難以定位信息的能力),GPT?5.4相比GPT?5.2 提升了17%,而GPT?5.4 Pro更是創下89.3%的新紀錄。
這意味著模型在回答需要匯集多個來源信息的問題時表現更強,能夠通過多輪搜索鎖定最相關的資料,並將信息綜合整理成清晰、邏輯嚴謹的回答。
工具調用方面,GPT?5.4引入“工具搜索”機制。以往大量外部工具定義必須在每次請求時全量加載,占用大量Token並拖慢響應;新機制允許模型按需查詢工具定義,顯著減少Token開銷。
GPT?5.4總Token使用量降低
實測中,在啟用36個MCP服務器情況下,總Token使用量降低47%,准確率保持不變。在Toolathlon測試中,GPT?5.4取得54.6%,高於GPT?5.2的45.7%。Zapier CEO韋德·福斯特(Wade Foster)指出,GPT?5.4在多步驟工具調用任務中持續執行能力顯著增強。
05 使用方式、價格與部署
GPT?5.4已在ChatGPT、API和Codex平台上線。在ChatGPT中,GPT?5.4 Thinking向Plus、Team和Pro用戶開放,取代GPT?5.2 Thinking;GPT?5.4 Pro面向Pro和企業用戶,適用於大型代碼項目分析、跨系統自動化流程及長周期研究任務。
在API中,開發者可通過“gpt-5.4”和“gpt-5.4-pro”直接調用模型。Codex提供最高百萬Token實驗性上下文窗口,超過標准272K部分按兩倍費率計入使用量。
定價方面,GPT?5.4輸入價格每百萬Token 2.50美元,輸出價格15美元,略高於GPT?5.2的1.75美元和14美元;GPT?5.4 Pro輸入價格30美元,輸出180美元。由於模型Token利用率提升,許多任務所需總Token數量下降,因此整體成本可能不會顯著增加。
06 寫在最後
GPT-4 75%的計算機操控成功率意味著肆次裡仍有壹次失敗。從“能用”到“能依賴”,GPT-5.4是重要節點,但不是終點。
真正的問題不是AI能不能幹活,而是當它真正能接活的時候,你准備好把哪些活交出去了?- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見