2025年AI看不懂時鍾!90%人答對頂尖AI全軍覆沒

日期: 2025-09-08 | 來源: 新智元 | 有0人參與評論 | 字體: 小中大
90%人都會的讀鍾題，頂尖AI全軍覆沒！

AI基准創建者、連續創業者Alek Safar推出了視覺基准測試ClockBench，專注於測試AI的「看懂」模擬時鍾的能力。

結果讓人吃驚：

人類平均准確率89.1%，而參與測試的11個主流大模型最好的成績僅13.3%。

就難度而言，這與「AGI終極測試」ARC-AGI-2相當，比「人類終極考試」更難。

ClockBench共包含180個時鍾、720道問題，展示了當前前沿大語言模型（LLM）的局限性。

論文鏈接：https://clockbench.ai/ClockBench.pdf

雖然這些模型在多項基准上展現出驚人的推理、數學與視覺理解能力，但這些能力尚未有效遷移到「讀表」。可能原因：

訓練數據未覆蓋足夠可記憶的時鍾特征與時間組合，模型不得不通過推理去建立指針、刻度與讀數之間的映射。

時鍾的視覺結構難以完整映射到文本空間，導致基於文本的推理受限。

也有好消息：表現最好的模型已展現出壹定的視覺推理（雖有限）。其讀時准確率與中位誤差均顯著優於隨機水平。

接下來需要更多研究，以判定這些能力能否通過擴大現有范式（數據、模型規模、計算/推理預算）來獲得，還是必須采用全新的方法。

ClockBench如何拷打AI？

在過去的幾年裡，大語言模型（LLM）在多個領域都取得了顯著進展，前沿模型很快在許多流行基准上達到了「飽和」。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁12 3 4 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞