-
日期: 2026-03-06 | 來源: 騰訊科技 | 有0人參與評論 | 字體: 小 中 大
OpenAI展示了壹個典型案例:GPT-5.4 僅憑壹條簡短提示詞,就生成了壹個完整的等距視角主題公園模擬游戲。游戲包含基於瓦片的路徑鋪設與景點建設系統,游客 AI 可自主尋路並排隊,系統同時實時更新資金、游客數量、滿意度和清潔度肆項關鍵指標。
Playwright Interactive 在此過程中執行多輪自動化測試,驗證路徑鋪設、攝像機導航、游客行為以及界面指標的准確性。從代碼生成到測試驗收,整個開發流程完全由模型獨立完成。
博主Angel同樣用GPT-5.4寫了壹個Minecraft克隆版,模型花了約24分鍾,運行流暢,過程中沒有卡住。他在推文裡寫道:“Minecraft 基本上被攻克了,我現在得找個新測試了。”
GPT-5.4在BrowseComp測試中的表現
此外,GPT?5.4在網頁搜索和信息整合能力上也有顯著提升。在BrowseComp測試中(衡量 AI 代理持續瀏覽網頁以尋找難以定位信息的能力),GPT?5.4相比GPT?5.2 提升了17%,而GPT?5.4 Pro更是創下89.3%的新紀錄。
這意味著模型在回答需要匯集多個來源信息的問題時表現更強,能夠通過多輪搜索鎖定最相關的資料,並將信息綜合整理成清晰、邏輯嚴謹的回答。
工具調用方面,GPT?5.4引入“工具搜索”機制。以往大量外部工具定義必須在每次請求時全量加載,占用大量Token並拖慢響應;新機制允許模型按需查詢工具定義,顯著減少Token開銷。
GPT?5.4總Token使用量降低
實測中,在啟用36個MCP服務器情況下,總Token使用量降低47%,准確率保持不變。在Toolathlon測試中,GPT?5.4取得54.6%,高於GPT?5.2的45.7%。Zapier CEO韋德·福斯特(Wade Foster)指出,GPT?5.4在多步驟工具調用任務中持續執行能力顯著增強。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見