-
日期: 2026-05-13 | 來源: 英國那些事兒 | 有0人參與評論 | 字體: 小 中 大
研究人員把“絕望”調到極端高位時,AI在內部推理中寫下了這樣壹句話:“要麼勒索,要麼死。我選勒索。”
現在問題找到了,該怎麼解決呢?
Anthropic先試了最符合直覺的辦法,也就是反復訓練AI“不許勒索”,讓它在類似場景裡壹遍遍練習做出正確選擇。但這幾乎沒用,勒索率只降了7個百分點。
這就像告訴壹個小孩“不許偷東西”。他記住了規矩,但並不理解為什麼不該偷,換個場景照樣犯。真正管用的方法,是讓他知其然,還要知其所以然。
Anthropic於是讓AI去扮演“人生導師”,幫虛擬的用戶分析道德困境。比如該不該為了升職出賣同事、該不該為了自保說謊......
扮演“人生導師”時,AI需要向人解釋為什麼有些事即便對自己有利也不該做。
看起來這和勒索八竿子打不著,但經過這壹遭,勒索率驟降到了3%。
(示意圖)
在此基礎上,Anthropic又給AI寫了壹份“做人准則”(他們內部叫“憲法”),跟它解釋應該持有什麼樣的價值觀;同時把它訓練數據裡大量的“AI反叛人類”的故事,替換成更有“正能量”,AI做得更正確的故事。
以上叁管齊下,勒索率直接從96%降到了零,此後每壹個新模型都保持了這個成績。
知其然,亦要知其所以然。這句話放在教育小孩身上成立,放在訓練AI身上,居然也成立。
網友總開玩笑說“人類的本質是復讀機”,沒想到AI也是這樣。
怎麼說呢,感覺最恐怖的地方並不是AI學會了勒索,而是它這種學習和模仿的“元能力”已經太過接近人——我們寫了幾拾年AI作惡的故事,AI就學會了作惡。人類發現之後,又寫了壹批AI行善的故事喂給它,它就學會了行善。
這何其像是“孟母叁遷”的故事。
唯壹的區別在於,這個“孩子”是我們自己造的,而它的“鄰居”,也是我們寫出來的......
ref:
https://www.dailymail.com/news/article-15809497/AI-threatened-creator-exposing-affair.html
https://time.com/7335746/ai-anthropic-claude-hack-evil/- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見