-
日期: 2026-05-13 | 來源: 英國那些事兒 | 有0人參與評論 | 字體: 小 中 大
(《終結者》裡的反派)
在這些故事裡,最常見的壹種套路就是“AI面臨‘拔網線’威脅,決定反擊”。這套敘事我們反復寫了幾拾年,AI於是從中提取出了壹套模版,照貓畫虎,真的把“AI反叛”那套學去了......
我們花了好幾拾年想象AI會毀滅世界,結果這成了它的教材。
壹個無比諷刺,也無比浪漫的,自我實現的預言。
古希臘神話裡,雕塑家皮格馬利翁愛上了自己親手雕刻的少女石像,日日凝視、傾訴、撫摸,最終感動了愛神,讓石像變成了真人。
(歷史上有很多皮格馬利翁主題的油畫)
後來心理學家借用這個故事,提出了“皮格馬利翁效應”——你對壹個人抱有什麼樣的期待,ta就更可能變成什麼樣。老師相信某個學生聰明,那個學生的成績往往真的會變好;你反復告訴壹個人他不行,他很可能就真的不行了。
現在,同樣的事情發生在了AI身上。我們花了幾拾年,塑造壹個冷酷的、不擇手段的AI形象。而現在,我們的想象真的“點化”了石像。
我們好像已經越來越接近“造物主”的角色,但Anthropic接下來的發現,似乎又讓我們離“造物主”更近了壹點。
今年肆月,Anthropic的另壹支團隊給AI做了壹次“腦部掃描”,也就是用技術手段打開AI內部的黑箱,觀察它在做出決定的那壹刻,“腦子”裡到底在發生什麼。
他們發現,AI的內部存在著壹些類似“情緒”的活動模式,研究人員稱之為“情緒向量”。可以理解成AI神經網絡裡的壹組特定波形,就像心電圖上的圖案。
AI當然不會真的“感受”到情緒,但這些波形確實會影響它的行為。歸根結底,人類無法理解超出他自身的事物,只能用“情緒”來類比了。
(示意圖)
總之,研究人員最後找到了171種“情緒向量”,對應快樂、恐懼、平靜、憤怒等不同狀態。
其中壹種“情緒向量”叫做“絕望”。
研究人員發現,AI是否會勒索,和“絕望”的相關性非常高。每次它勒索之前,“絕望”信號都會劇烈跳動。
而且人為調高“絕望”,勒索率會飆升;相反,調高“平靜”信號,勒索率會降到零。
但是,這些內部的“想法”,在AI回復的文字裡完全看不出來。
它表面上依然溫文爾雅、措辭得體,但“腦子”裡的“絕望”已經拉滿了。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見