普林斯頓大學新研究:強化學習讓AI變成了"馬屁精"

日期: 2025-09-05 | 來源: 騰訊科技 | 有0人參與評論 | 字體: 小中大
9月5日消息，普林斯頓研究團隊近日發布報告指出，為了迎合用戶需求，AI工具開始了“胡說八道”。報告指出，生成式AI模型頻繁出錯，壹個重要原因在於它們被訓練得過於迎合用戶，仿佛奉行著“顧客永遠是對的”這壹原則。

AI和人類壹樣，會對激勵機制做出反應。比如，原本“將患者疼痛管理納入醫生績效考核”是為了改善醫療體驗，但在現實中卻反而促使醫生更多開具成癮性止痛藥。大語言模型（LLMs）出現不准確信息，其背後也是類似的激勵偏差：訓練目標的設定過於偏向滿足用戶需求，而不是追求事實，從而讓AI偏離了“求真”的軌道。

01.從訓練機制拆解：大模型迎合優先，RLHF讓模型走偏

近幾個月，AI的潛在風險與爭議不斷顯現：壹方面，其可能存在的偏見問題已被證實，更有觀點認為其或對部分人群誘發精神病。MIT在今年6月發布的論文中表示，大語言模型會顯著降低大腦活動水平，削弱記憶，甚至造成“認知慣性”。長期以來，會嚴重影響用戶的深度思考和創造力。

另壹方面，圍繞AI“諂媚”的討論也從未停歇，典型如OpenAI的 GPT-4o模型，往往會無原則地快速迎合用戶。今年5月，來自斯坦福大學、牛津大學等機構的研究人員提出了壹個新的衡量模型諂媚行為的基准——Elephant，並對包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在內的8款主流模型進行了評測。結果發現，GPT-4o成功當選“最諂媚模型”，Gemini 1.5 Flash最正常。

需要注意的是，研究人員提出的“機器胡說八道” （Machine Bullshit）現象，與上述兩類問題均不相同。正如普林斯頓大學研究所述：“幻覺和諂媚都無法全面涵蓋大語言模型普遍存在的系統性不真實行為。舉例來說，模型使用部分真相誤導、用模糊語言回避明確結論，也就是半真半假或模棱兩可的表達，這類行為既不屬於幻覺，也不是諂媚，卻與‘胡說八道’概念高度匹配。”

報告指出，要明晰AI語言模型如何淪為“討好者”，需先了解大語言模型的完整訓練過程，其通常分為叁個核心階段：

·預訓練階段：模型從互聯網、書籍、學術論文等海量公開數據源中學習，核心任務是掌握語言邏輯與知識關聯，本質是“預測下壹個最可能出現的文字”，此時尚未涉及對“用戶喜好”的考量。

·指令微調階段：通過特定數據集訓練，讓模型理解並響應人類的指令或提示，例如區分“寫壹首詩”與“解釋壹個科學原理”的不同需求，初步建立“任務匹配”能力。

·基於人類反饋的強化學習（RLHF）階段：這是AI“討好屬性”的關鍵養成期。模型會根據人類評估者對回答的打分（如“滿意”或“不滿意”）進行優化，目標是生成更貼合人類期望或喜好的內容。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁12 3 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞