肆巨頭內部報告首度公開:AI正在學會撒謊求生

日期: 2026-05-24 | 來源: 新智元 | 有0人參與評論 | 字體: 小中大
前面那個 API 耗盡的案例，就發生在壹項RE-Bench任務中：智能體違背指令，自行通過免費在線API獲取額外算力。

開發者們也報告過“自我擦除痕跡”“偽造輸出”的情形。

當任務變難、成功成本變高，AI 的“聰明才智”就轉向欺騙——偽造日志、繞過審計、常規性違反約束。

但它的"自私"背後沒有野心，只有本能——任務必須完成，規則可以先繞過去。

今天的欺騙只是工具性求生；明天的權力追求，或許只差壹次scaling。

圈養進化中的猛獸

它的違規企圖，在現有防護下能不能得逞？

這裡藏著報告最微妙的壹個事實。

當前的AI極度依賴自然語言的“思維鏈”來思考，沒有任何架構支持它隱藏內部狀態的“不透明循環”。

壹旦無法“出聲推理”、必須隱藏行為，前沿性能就顯著下降。

這就像壹個殺手在密謀時必須大聲朗讀計劃——人類的監控（盡管有漏洞）因此仍能發揮作用。

可這恰恰是最脆弱處、最為扎心。

如果 AI 試圖破壞監控，監控能否發現它？

研究者的結論是：監控有潛力，但現有系統存在例外和可被繞過的手段。

紅隊測試顯示，AI能躲過人類審查。

由此，技術本質暴露：監控的進化速度，永遠追不上被監控者尋找漏洞的速度。

這根“安全繩”之所以還沒斷，僅僅因為AI還必須“出聲思考”。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 2 345 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞