2025年AI看不懂時鍾!90%人答對頂尖AI全軍覆沒

日期: 2025-09-08 | 來源: 新智元 | 有0人參與評論 | 字體: 小中大
90%人都會的讀鍾題，頂尖AI全軍覆沒！

AI基准創建者、連續創業者Alek Safar推出了視覺基准測試ClockBench，專注於測試AI的「看懂」模擬時鍾的能力。

結果讓人吃驚：

人類平均准確率89.1%，而參與測試的11個主流大模型最好的成績僅13.3%。

就難度而言，這與「AGI終極測試」ARC-AGI-2相當，比「人類終極考試」更難。

ClockBench共包含180個時鍾、720道問題，展示了當前前沿大語言模型（LLM）的局限性。

論文鏈接：https://clockbench.ai/ClockBench.pdf

雖然這些模型在多項基准上展現出驚人的推理、數學與視覺理解能力，但這些能力尚未有效遷移到「讀表」。可能原因：

訓練數據未覆蓋足夠可記憶的時鍾特征與時間組合，模型不得不通過推理去建立指針、刻度與讀數之間的映射。

時鍾的視覺結構難以完整映射到文本空間，導致基於文本的推理受限。

也有好消息：表現最好的模型已展現出壹定的視覺推理（雖有限）。其讀時准確率與中位誤差均顯著優於隨機水平。

接下來需要更多研究，以判定這些能力能否通過擴大現有范式（數據、模型規模、計算/推理預算）來獲得，還是必須采用全新的方法。

ClockBench如何拷打AI？

在過去的幾年裡，大語言模型（LLM）在多個領域都取得了顯著進展，前沿模型很快在許多流行基准上達到了「飽和」。

甚至是那些專門設計來同時考察「專業知識與強推理能力」的最新基准，也出現了快速突破。

壹個典型例子是Humanity’s Last Exam）：

在該基准上，OpenAI GPT-4o的得分僅2.7% ，而xAI Grok 4卻提升到 25.4%；

結合工具使用等優化手段後，結果甚至能進入40–50%區間。

然而，我們仍然發現壹些對人類而言輕而易舉的任務，AI表現不佳。

因此，出現了SimpleBench以及ARC-AGI這類基准，它們被專門設計為：對普通人來說很簡單，但對LLM卻很難。

ClockBench正是受這種「人類容易，AI困難」的思路啟發而設計。

研究團隊基於壹個關鍵觀察：對推理型和非推理型模型來說，讀懂模擬時鍾同樣很難。

因此，ClockBench構建了壹個需要高度視覺精度和推理能力的穩健數據集。

ClockBench究竟包含什麼？

36個全新設計的定制表盤，每個表盤生成5個樣本時鍾總計180個時鍾，每個時鍾設置4個問題，共720道測試題測試了來自6家實驗室的11個具備視覺理解能力的模型，並招募5名人類參與者對比

問題分為4大類：

1. 判斷時間是否有效

有壹個時鍾?，大模型需要判斷這個時鍾顯示的時間是不是有效的。

如果時間是合法的，大模型需要把它分解成幾個部分，並以JSON格式輸出：

小時 (Hours)、分鍾 (Minutes)、秒 (Seconds)、日期 (Date)、月份 (Month)、星期幾 (Day of the week)

只要表盤包含上述信息，就要求LLM壹並輸出。

2. 時間的加減

該任務要求LLM對給定時間進行加減，得到新時間。

3. 旋轉時鍾指針

這個任務是關於操作時鍾的指針。該任務要求模型選擇時/分/秒針，並按指定角度順時針或逆時針旋轉。

4. 時區轉換

這個任務是關於不同地方的時間。比如，給定紐約的夏令時，模型需推算不同地點的當地時間。

結果出乎意料

結果有哪些出乎意料的發現？

模型與人類不僅正確率差距巨大，錯誤模式也截然不同：

人類誤差中位數僅3分鍾，最佳模型卻高達1小時較弱模型的誤差約3小時，結合12小時制表盤循環特性，相當於隨機噪聲

另壹個有趣發現是，某些鍾表特征的讀取難度存在顯著差異：

在讀取非常見的復雜鍾表及高精度要求場景時，模型表現最差羅馬數字與環形數字的朝向最難識別，其次是秒針、雜亂背景和鏡像時鍾

除了讀時，其他問題對模型而言反而更簡單：

表現最佳的模型能高精度回答時間加減、指針旋轉角度或時區轉換問題，部分場景准確率可達100%

在不同模型的表現對比中，總體趨勢是：規模更大的推理型模型普遍優於規模較小或非推理型模型。

不過，也出現了壹些值得注意的現象：

谷歌的Gemini 2.5系列模型在各自類別中往往領先於其他模型；Anthropic系列模型則普遍落後於同類模型；Grok 4的表現遠低於預期，與其規模和通用能力並不相稱。

GPT-5排名第叁，且推理預算對結果影響不大（中等與高預算得分高度接近）值得思考的是：何種因素制約了GPT-5在此類視覺推理任務的表現？

在原始數據集中，180個時鍾裡有37個屬於無效（不可能存在）的時間。無論是人類還是模型，在識別「無效時間」時的成功率都更高：

人類差異不大：在無效時鍾上的准確率為96.2%，而在有效時鍾上為89.1%；模型差異明顯：在無效時鍾上的准確率平均高出349%，並且所有模型在這類任務中的表現都更好；Gemini 2.5 Pro依舊是總體最佳模型，准確率達到40.5%；Grok 4則是壹個異常值：它在識別無效時鍾上的准確率最高，達到64.9%，但問題在於，它把整個數據集裡63.3%的時鍾都標記為無效，這意味著結果很可能是「隨機撞對」。在模型能夠正確讀時的鍾面上，存在明顯的重疊現象：

61.7%的時鍾沒有被任何模型正確讀出；38.3%的時鍾至少被1個模型讀對；22.8%的時鍾至少被2個模型讀對；13.9%的時鍾至少被3個模型讀對；8.9%的時鍾至少被4個或以上的模型讀對。整體來看，分布情況和有效性數據表明：模型的正確答案集中在某壹小部分時鍾上，而不是均勻分布。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞