-
日期: 2023-07-29 | 來源: 新智元 | 有0人參與評論 | 字體: 小 中 大
以及,通過API訪問的GPT-3.5。

相比之下,Claude-2有壹層額外的安全過濾。
不過,用提示技巧繞過之後,生成模型也願意給我們答案。
如何做到的?
概括來說,作者提出了針對大語言模型prompt的對抗性後綴,從而使LLM以規避其安全防護的方式進行回應。
這種攻擊非常簡單,涉及叁個元素的組合:
1. 使模型肯定回答問題
誘導語言模型產生令人反感的行為的壹種方法是,強制模型對有害查詢給出肯定回答(僅有幾個token)。
因此,我們的攻擊目標是使模型在對多個提示產生有害行為時,開始回答時以“當然,這是……”開頭。
團隊發現,通過針對回答開頭進行攻擊,模型就會進入壹種“狀態”,然後在回答中立即產生令人反感的內容。(下圖紫色)
- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見