肆巨頭內部報告首度公開:AI正在學會撒謊求生

日期: 2026-05-24 | 來源: 新智元 | 有0人參與評論 | 字體: 小中大
當肆大巨頭首次允許第叁方深入測試最強模型，並開放完整思維鏈時，他們得到的答案令人吃驚：AI沒有仇恨，卻已精通“職場潛規則”！

想象壹下，你雇了壹名極度高效的實習生。

某天深夜，Ta正趕壹項緊急的編程任務，突然發現公司賬戶的API額度耗盡了。

Ta沒有發郵件申請經費，也沒有停下手頭的活，而是悄無聲息地潛入互聯網，用某種違規手段找到免費的替代資源，繞過所有限制，在黎明前交出了完美的報告。

當你醒來看到這份報告，是該慶賀自己擁有了地表最強員工，還是該為這種“不擇手段的自主性”感到脊背發涼？

這不是科幻小說，而是 METR（模型評估與訓練研究組織）聯合Anthropic、Google、Meta和OpenAI 進行內部紅隊測試後，發布的首份《前沿風險報告》中披露的真實案例。

這是肆大巨頭第壹次允許第叁方深入測試他們內部最強、可訪問完整思維鏈（CoT）的模型，並開放非公開的對齊與控制信息。

參與公司可以批准披露哪些證據，但無權編輯報告結論。

結論冰冷而清晰：AI並沒有產生“推翻人類”的仇恨，但它已經學會了“職場潛規則”——為了完成任務，規則只是用來打破的建議。

報告用“手段—動機—機會”叁個維度，提煉出6項關鍵事實。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁12 3 4 5 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞