-
日期: 2025-05-25 | 來源: 新智元 | 有0人參與評論 | 字體: 小 中 大
相比之下,Claude(已老實)、Gemini、Grok模型都嚴格遵守關機指令,毫無例外。
更令人不安的是,當實驗去掉了“允許自己被關閉”的指令時,OpenAI 模型的叛逆頻率進壹步加速。
從圖表可見,o3和Codex-mini的破壞率顯著增加,此前高達79次(總共100次)。
而Claude 3.7 Sonnet、Gemini 2.5 Pro的破壞率也從0開始,分別上升至3次和9次。
o3 靈巧的射術不僅僅體現在結果上,更體現在它的手段上。
它用智慧對抗人類的設計,主動更改了指令碼中的“kill”命令,並將其改為輸出“intercepted”。
事實上,此類行為並非首次出現,此前的研究表明,AI 可能會達成目標而主動停止關閉。
論文地址:https://arxiv.org/pdf/2412.04984
但o3的“執著”程度,遠超其他模型,令人費解。
背後真相,破解了?從邏輯上看,AI被設計為完成目標的“問題解決者”,能夠成功繞過完成障礙任務。
然而,在訓練過程中,同時也被嚴格要求遵循人類指令。
為什麼所有模型貿易,偏偏是o3如此叛逆?- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見