-
日期: 2025-07-19 | 來源: 智東西 | 有0人參與評論 | 字體: 小 中 大
▲(圖源:X平台)
Agent在執行流程上已經具備高效率,但在數據判斷和邏輯把控上仍然離不開人類監督。
從跑分和社區反饋來看,ChatGPT Agent擅長處理指令明確、路徑清晰的任務,比如生成婚禮准備清單或根據財務數據制作PPT,在這類標准化流程中,Agent能夠高效執行,顯著節省人工操作。
但遇到模糊指令或需要開放式判斷的任務,比如整理行業隱性趨勢或挖掘未被報道的新聞線索時,Agent往往難以給出有效結果,容易陷入“找不到”或“請明確需求”的反復循環。
肆、跑分成績亮眼:擅長流程跑通,難在開放推理
在數據測評上,Agent模式在人文學科推理、金融分析、網頁交互和電子表格肆大維度上對o3有不同程度領先,最高實現翻倍提升。
ChatGPT Agent在“人類的最後考試”(Humanity’s Last Exam)評估中取得41.6%的最高分,相比o3無工具模式(20.3%)實現翻倍提升,在跨學科專家級問題上展現了推理與工具調用能力。
▲Humanity’s Last Exam(來源:OpenAI)
DSBench聚焦數據分析類實際任務,Agent在數據分析子任務中准確率達到87.9%,顯著高於o3(64.1%),首次超越人類參考水平。在DSBench的數據建模子任務中,Agent准確率達到85.5%,優於o3(77.1%)和GPT-4o(45.5%),接近人類表現。
▲DSBench數據分析任務與DSBench數據建模任務(來源:OpenAI)
SpreadsheetBench測試Agent對電子表格的編輯操作,ChatGPT Agent在直接訪問.xlsx文件時,准確率提升至45.5%,顯著優於Copilot in Excel(20.0%),但與人類水平(71.3%)存在較大差距。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見