壹文讀懂GPT-5.4 打個招呼80美元就燒完了

日期: 2026-03-06 | 來源: 騰訊科技 | 有0人參與評論 | 字體: 小中大
OpenAI展示了壹個典型案例：GPT-5.4 僅憑壹條簡短提示詞，就生成了壹個完整的等距視角主題公園模擬游戲。游戲包含基於瓦片的路徑鋪設與景點建設系統，游客 AI 可自主尋路並排隊，系統同時實時更新資金、游客數量、滿意度和清潔度肆項關鍵指標。

Playwright Interactive 在此過程中執行多輪自動化測試，驗證路徑鋪設、攝像機導航、游客行為以及界面指標的准確性。從代碼生成到測試驗收，整個開發流程完全由模型獨立完成。

博主Angel同樣用GPT-5.4寫了壹個Minecraft克隆版，模型花了約24分鍾，運行流暢，過程中沒有卡住。他在推文裡寫道：“Minecraft 基本上被攻克了，我現在得找個新測試了。”

GPT-5.4在BrowseComp測試中的表現

此外，GPT?5.4在網頁搜索和信息整合能力上也有顯著提升。在BrowseComp測試中（衡量 AI 代理持續瀏覽網頁以尋找難以定位信息的能力），GPT?5.4相比GPT?5.2 提升了17%，而GPT?5.4 Pro更是創下89.3%的新紀錄。

這意味著模型在回答需要匯集多個來源信息的問題時表現更強，能夠通過多輪搜索鎖定最相關的資料，並將信息綜合整理成清晰、邏輯嚴謹的回答。

工具調用方面，GPT?5.4引入“工具搜索”機制。以往大量外部工具定義必須在每次請求時全量加載，占用大量Token並拖慢響應；新機制允許模型按需查詢工具定義，顯著減少Token開銷。

GPT?5.4總Token使用量降低

實測中，在啟用36個MCP服務器情況下，總Token使用量降低47%，准確率保持不變。在Toolathlon測試中，GPT?5.4取得54.6%，高於GPT?5.2的45.7%。Zapier CEO韋德·福斯特（Wade Foster）指出，GPT?5.4在多步驟工具調用任務中持續執行能力顯著增強。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 2 345 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞