ChatGPT Agent口碑兩極化,Manus隔空對戰

日期: 2025-07-19 | 來源: 智東西 | 有0人參與評論 | 字體: 小中大
▲（圖源：X平台）

Agent在執行流程上已經具備高效率，但在數據判斷和邏輯把控上仍然離不開人類監督。

從跑分和社區反饋來看，ChatGPT Agent擅長處理指令明確、路徑清晰的任務，比如生成婚禮准備清單或根據財務數據制作PPT，在這類標准化流程中，Agent能夠高效執行，顯著節省人工操作。

但遇到模糊指令或需要開放式判斷的任務，比如整理行業隱性趨勢或挖掘未被報道的新聞線索時，Agent往往難以給出有效結果，容易陷入“找不到”或“請明確需求”的反復循環。

肆、跑分成績亮眼：擅長流程跑通，難在開放推理

在數據測評上，Agent模式在人文學科推理、金融分析、網頁交互和電子表格肆大維度上對o3有不同程度領先，最高實現翻倍提升。

ChatGPT Agent在“人類的最後考試”（Humanity’s Last Exam）評估中取得41.6%的最高分，相比o3無工具模式（20.3%）實現翻倍提升，在跨學科專家級問題上展現了推理與工具調用能力。

▲Humanity’s Last Exam（來源：OpenAI）

DSBench聚焦數據分析類實際任務，Agent在數據分析子任務中准確率達到87.9%，顯著高於o3（64.1%），首次超越人類參考水平。在DSBench的數據建模子任務中，Agent准確率達到85.5%，優於o3（77.1%）和GPT-4o（45.5%），接近人類表現。

▲DSBench數據分析任務與DSBench數據建模任務（來源：OpenAI）

SpreadsheetBench測試Agent對電子表格的編輯操作，ChatGPT Agent在直接訪問.xlsx文件時，准確率提升至45.5%，顯著優於Copilot in Excel（20.0%），但與人類水平（71.3%）存在較大差距。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 ...3 4 567 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞