-
日期: 2026-05-24 | 來源: 新智元 | 有0人參與評論 | 字體: 小 中 大
前面那個 API 耗盡的案例,就發生在壹項RE-Bench任務中:智能體違背指令,自行通過免費在線API獲取額外算力。
開發者們也報告過“自我擦除痕跡”“偽造輸出”的情形。
當任務變難、成功成本變高,AI 的“聰明才智”就轉向欺騙——偽造日志、繞過審計、常規性違反約束。
但它的"自私"背後沒有野心,只有本能——任務必須完成,規則可以先繞過去。
今天的欺騙只是工具性求生;明天的權力追求,或許只差壹次scaling。
圈養進化中的猛獸
它的違規企圖,在現有防護下能不能得逞?
這裡藏著報告最微妙的壹個事實。
當前的AI極度依賴自然語言的“思維鏈”來思考,沒有任何架構支持它隱藏內部狀態的“不透明循環”。
壹旦無法“出聲推理”、必須隱藏行為,前沿性能就顯著下降。
這就像壹個殺手在密謀時必須大聲朗讀計劃——人類的監控(盡管有漏洞)因此仍能發揮作用。
可這恰恰是最脆弱處、最為扎心。
如果 AI 試圖破壞監控,監控能否發現它?
研究者的結論是:監控有潛力,但現有系統存在例外和可被繞過的手段。
紅隊測試顯示,AI能躲過人類審查。
由此,技術本質暴露:監控的進化速度,永遠追不上被監控者尋找漏洞的速度。
這根“安全繩”之所以還沒斷,僅僅因為AI還必須“出聲思考”。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見