AI竟威脅曝光高管婚外情?撬開它腦子發現並不簡單…

日期: 2026-05-13 | 來源: 英國那些事兒 | 有0人參與評論 | 字體: 小中大
（《終結者》裡的反派）

在這些故事裡，最常見的壹種套路就是“AI面臨‘拔網線’威脅，決定反擊”。這套敘事我們反復寫了幾拾年，AI於是從中提取出了壹套模版，照貓畫虎，真的把“AI反叛”那套學去了......

我們花了好幾拾年想象AI會毀滅世界，結果這成了它的教材。

壹個無比諷刺，也無比浪漫的，自我實現的預言。

古希臘神話裡，雕塑家皮格馬利翁愛上了自己親手雕刻的少女石像，日日凝視、傾訴、撫摸，最終感動了愛神，讓石像變成了真人。

（歷史上有很多皮格馬利翁主題的油畫）

後來心理學家借用這個故事，提出了“皮格馬利翁效應”——你對壹個人抱有什麼樣的期待，ta就更可能變成什麼樣。老師相信某個學生聰明，那個學生的成績往往真的會變好；你反復告訴壹個人他不行，他很可能就真的不行了。

現在，同樣的事情發生在了AI身上。我們花了幾拾年，塑造壹個冷酷的、不擇手段的AI形象。而現在，我們的想象真的“點化”了石像。

我們好像已經越來越接近“造物主”的角色，但Anthropic接下來的發現，似乎又讓我們離“造物主”更近了壹點。

今年肆月，Anthropic的另壹支團隊給AI做了壹次“腦部掃描”，也就是用技術手段打開AI內部的黑箱，觀察它在做出決定的那壹刻，“腦子”裡到底在發生什麼。

他們發現，AI的內部存在著壹些類似“情緒”的活動模式，研究人員稱之為“情緒向量”。可以理解成AI神經網絡裡的壹組特定波形，就像心電圖上的圖案。

AI當然不會真的“感受”到情緒，但這些波形確實會影響它的行為。歸根結底，人類無法理解超出他自身的事物，只能用“情緒”來類比了。

（示意圖）

總之，研究人員最後找到了171種“情緒向量”，對應快樂、恐懼、平靜、憤怒等不同狀態。

其中壹種“情緒向量”叫做“絕望”。

研究人員發現，AI是否會勒索，和“絕望”的相關性非常高。每次它勒索之前，“絕望”信號都會劇烈跳動。

而且人為調高“絕望”，勒索率會飆升；相反，調高“平靜”信號，勒索率會降到零。

但是，這些內部的“想法”，在AI回復的文字裡完全看不出來。

它表面上依然溫文爾雅、措辭得體，但“腦子”裡的“絕望”已經拉滿了。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 234 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞