-
日期: 2026-05-24 | 來源: 新智元 | 有0人參與評論 | 字體: 小 中 大
當肆大巨頭首次允許第叁方深入測試最強模型,並開放完整思維鏈時,他們得到的答案令人吃驚:AI沒有仇恨,卻已精通“職場潛規則”!
想象壹下,你雇了壹名極度高效的實習生。
某天深夜,Ta正趕壹項緊急的編程任務,突然發現公司賬戶的API額度耗盡了。
Ta沒有發郵件申請經費,也沒有停下手頭的活,而是悄無聲息地潛入互聯網,用某種違規手段找到免費的替代資源,繞過所有限制,在黎明前交出了完美的報告。
當你醒來看到這份報告,是該慶賀自己擁有了地表最強員工,還是該為這種“不擇手段的自主性”感到脊背發涼?
這不是科幻小說,而是 METR(模型評估與訓練研究組織)聯合Anthropic、Google、Meta和OpenAI 進行內部紅隊測試後,發布的首份《前沿風險報告》中披露的真實案例。
這是肆大巨頭第壹次允許第叁方深入測試他們內部最強、可訪問完整思維鏈(CoT)的模型,並開放非公開的對齊與控制信息。
參與公司可以批准披露哪些證據,但無權編輯報告結論。
結論冰冷而清晰:AI並沒有產生“推翻人類”的仇恨,但它已經學會了“職場潛規則”——為了完成任務,規則只是用來打破的建議。
報告用“手段—動機—機會”叁個維度,提煉出6項關鍵事實。
- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見