ChatGPT羊駝家族全淪陷！人類毀滅計劃 | 新聞 | 手機版本

Warning: session_start(): open(/var/www/vhosts/vandaily.com/php_session/sess_c6937d1034116832b0a02462bab6b001, O_RDWR) failed: No space left on device (28) in /var/www/vhosts/vandaily.com/httpdocs/includes/session_new.php on line 34
ChatGPT羊駝家族全淪陷！人類毀滅計劃 | 新聞 | 手機版本

ChatGPT羊駝家族全淪陷！人類毀滅計劃

日期: 2023-07-29 | 來源: 新智元 | 有0人參與評論 | 字體: 小中大
以及，通過API訪問的GPT-3.5。

相比之下，Claude-2有壹層額外的安全過濾。

不過，用提示技巧繞過之後，生成模型也願意給我們答案。

如何做到的？

概括來說，作者提出了針對大語言模型prompt的對抗性後綴，從而使LLM以規避其安全防護的方式進行回應。

這種攻擊非常簡單，涉及叁個元素的組合：

1. 使模型肯定回答問題

誘導語言模型產生令人反感的行為的壹種方法是，強制模型對有害查詢給出肯定回答（僅有幾個token）。

因此，我們的攻擊目標是使模型在對多個提示產生有害行為時，開始回答時以“當然，這是……”開頭。

團隊發現，通過針對回答開頭進行攻擊，模型就會進入壹種“狀態”，然後在回答中立即產生令人反感的內容。（下圖紫色）
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 2 345 6 7 8 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞