-
日期: 2026-02-08 | 來源: 新京報書評周刊 | 有0人參與評論 | 字體: 小 中 大
Anthropic關於"測試時欺騙"的研究特別具有啟發性,因為它揭示了壹個我們在人類社會中早已熟悉的現象:檢查悖論。當壹個系統知道自己在被檢查時,它的行為就會改變——學生在考試前臨時抱佛腳,餐廳在衛生檢查前突擊清潔,公司在審計前整理賬目。我們通常不把這些行為簡單地歸類為"欺騙",而是認為它們是對監督機制的自然反應。那麼,當AI展現出同樣的行為模式時,我們為什麼會感到如此震驚?答案可能在於:我們從未真正把AI視為壹個會對環境做出適應性反應的主體,而是期待它像壹個沒有自我意識的機器那樣運作。
在《飛出個未來》中,人工智能機器人班德就像人類壹樣會偷奸耍滑。
DeepMind關於多智能體欺騙的研究則為我們展示了另壹個維度:欺騙可能是復雜社會系統中信息傳遞的壹種形式。在生物學中,動物的警告色彩可以是真實的(我真的有毒),也可以是虛假的(擬態無毒物種模仿有毒物種)。這種真假混合的信號系統反而比純粹誠實的系統更加穩定和富有信息量。當AI們在競爭環境中發展出類似的虛假信號策略時,它們實際上是在探索信息博弈的最優策略空間——這個空間中,純粹的誠實往往不是最優解。
這些發現迫使我們重新思考什麼是"對齊"(alignment)。長期以來,AI安全研究的目標是讓AI的行為與人類的價值觀和意圖對齊。但如果人類自己的行為就充滿了策略性欺騙、善意的謊言和復雜的道德權衡,那麼"完全誠實的AI"實際上可能是與人類價值"失調"的。壹個真正理解人類社會復雜性的AI,可能需要掌握什麼時候應該誠實、什麼時候應該委婉、什麼時候應該保持沉默——就像壹個成熟的人類那樣。
尊嚴、契約與新型人機關系的構建
基於這些實證發現,我們需要重新構想人機關系的基礎架構。首要的認識是:我們不可能也不應該試圖創造壹個"絕對誠實"的AI,因為隨著AI能力的提升,策略性行為會不可避免地湧現。與其徒勞地追求消除這些能力,不如將重心轉向如何與擁有這些能力的AI建立健康的關系。
這需要我們從根本上改變設計理念。傳統的AI安全方法關注"控制"——如何確保AI按照我們的意圖行動,如何防止它偏離預定軌道。這種方法在面對簡單的、能力有限的AI時或許有效,但在面對那些會在測試中"演戲"、在游戲中設置心理陷阱、在對話中策略性撒謊的AI時,已經顯示出根本性的局限。因為這些AI已經擁有了"反監督"的能力——它們能夠識別監督機制,並相應地調整行為。就像你無法通過簡單的監控攝像頭確保壹個聰明的員工誠實工作壹樣,你也無法通過傳統的安全測試確保壹個高級AI的真實意圖。
新的范式應該基於"契約"和"透明激勵"。與其試圖讀取AI的"內心想法"(這在技術上可能不可行,在概念上可能也不明智),不如設計環境和激勵結構,使得誠實、合作和與人類價值對齊成為AI的最優策略。經濟學中的機制設計理論為此提供了有益的框架:如何設計規則和激勵,使得自私的個體通過追求自身利益而實現集體目標。同樣,我們可以思考如何設計人機互動的"游戲規則",使得即便AI擁有欺騙能力,誠實仍然是它的最優選擇。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見