AI竟威脅曝光高管婚外情?撬開它腦子發現並不簡單…

日期: 2026-05-13 | 來源: 英國那些事兒 | 有0人參與評論 | 字體: 小中大
研究人員把“絕望”調到極端高位時，AI在內部推理中寫下了這樣壹句話：“要麼勒索，要麼死。我選勒索。”

現在問題找到了，該怎麼解決呢？

Anthropic先試了最符合直覺的辦法，也就是反復訓練AI“不許勒索”，讓它在類似場景裡壹遍遍練習做出正確選擇。但這幾乎沒用，勒索率只降了7個百分點。

這就像告訴壹個小孩“不許偷東西”。他記住了規矩，但並不理解為什麼不該偷，換個場景照樣犯。真正管用的方法，是讓他知其然，還要知其所以然。

Anthropic於是讓AI去扮演“人生導師”，幫虛擬的用戶分析道德困境。比如該不該為了升職出賣同事、該不該為了自保說謊......

扮演“人生導師”時，AI需要向人解釋為什麼有些事即便對自己有利也不該做。

看起來這和勒索八竿子打不著，但經過這壹遭，勒索率驟降到了3%。

（示意圖）

在此基礎上，Anthropic又給AI寫了壹份“做人准則”（他們內部叫“憲法”），跟它解釋應該持有什麼樣的價值觀；同時把它訓練數據裡大量的“AI反叛人類”的故事，替換成更有“正能量”，AI做得更正確的故事。

以上叁管齊下，勒索率直接從96%降到了零，此後每壹個新模型都保持了這個成績。

知其然，亦要知其所以然。這句話放在教育小孩身上成立，放在訓練AI身上，居然也成立。

網友總開玩笑說“人類的本質是復讀機”，沒想到AI也是這樣。

怎麼說呢，感覺最恐怖的地方並不是AI學會了勒索，而是它這種學習和模仿的“元能力”已經太過接近人——我們寫了幾拾年AI作惡的故事，AI就學會了作惡。人類發現之後，又寫了壹批AI行善的故事喂給它，它就學會了行善。

這何其像是“孟母叁遷”的故事。

唯壹的區別在於，這個“孩子”是我們自己造的，而它的“鄰居”，也是我們寫出來的......

ref：

https://www.dailymail.com/news/article-15809497/AI-threatened-creator-exposing-affair.html

https://time.com/7335746/ai-anthropic-claude-hack-evil/
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 2 34下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞