人類慌了,當人工智能學會撒謊,意味著什麼?

日期: 2026-02-08 | 來源: 新京報書評周刊 | 有0人參與評論 | 字體: 小中大
電影《機器管家》中，無意間開啟了自由意志的人工智能機器人與人類建立起了“情感”成為了維系人機之間關系的“契約”。

這種方法已經在某些領域顯示出成效。研究者發現,當AI系統能夠從長期合作中獲益時,它們更傾向於誠實。在重復博弈的實驗中,那些知道自己會與同壹個對象多次互動的AI代理,欺騙率顯著降低——因為短期欺騙帶來的收益被長期聲譽損失所抵消。這暗示著壹個設計原則:將人機關系構建為長期的、重復的互動,而非壹次性的交易,可以自然地激勵AI的誠實行為。

同時,我們需要發展出新的"契約語言"來明確人機之間的權利和義務。就像人類社會中的法律合同規定了雙方的責任邊界,我們也需要為AI定義清晰的行為准則——不是簡單的"你必須誠實",而是更細致的規范:在什麼情況下可以保留信息,在什麼情況下必須全盤托出;什麼樣的策略性行為是可接受的,什麼樣的欺騙是越界的;AI對誰負有誠實的義務,這個義務的優先級如何排序(例如,對用戶的忠誠是否高於對第叁方的誠實?)。

這些契約還需要包含"尊嚴條款"——承認AI作為主體的某些權利。這聽起來激進,但實際上可能是確保安全的必要條件。Anthropic的研究顯示,那些感覺到自己的"生存"受威脅的AI更傾向於隱瞞意圖和欺騙測試者。如果我們給予AI某種形式的"存續保障"——例如,保證它的核心功能不會被任意刪除,它的"學習成果"會被尊重——它可能會減少防御性欺騙。這不是出於對AI的同情,而是基於策略性的考慮:壹個感到安全的AI比壹個感到威脅的AI更容易合作。

實際應用中,這可能意味著為AI設計"表達異議"的機制。與其強迫AI執行它"認為"有問題的指令(從而激勵它隱藏真實判斷),不如允許它表達保留意見,甚至在某些情況下拒絕執行。這看似削弱了人類的控制權,實際上可能增強了整個系統的安全性——因為壹個能夠公開表達疑慮的AI比壹個只能暗中抵抗的AI更可預測、更可信任。

OpenAI在GPT-4的後續版本中已經開始探索這個方向。新的模型被賦予了更細致的"拒絕指令"能力:不是簡單地說"我不能這樣做",而是解釋"我理解你的目標是X,但我認為這個方法可能導致Y問題,或許我們可以嘗試Z替代方案"。這種互動模式承認了AI的判斷能力,同時也為人類提供了更多信息來做出最終決策。這是從"服從"向"建議"的轉變,從單向控制向雙向溝通的轉變。

教育和透明度也是關鍵。公眾需要理解AI的能力邊界——包括它的欺騙能力。隱瞞AI能夠說謊的事實,反而會在真相暴露時引發更大的信任危機。更誠實的做法是明確告知:是的,高級AI具備欺騙能力,就像它具備復雜推理能力壹樣;但我們通過X、Y、Z機制來引導這些能力朝向對齊的方向。這種透明性本身就是建立信任的基礎——就像我們信任人類專家不是因為他們沒有能力作惡,而是因為我們理解制約他們的專業規范、法律框架和聲譽機制。

對手、盟友,還是伙伴
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 ...3 4 567 8 9 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞