-
日期: 2023-07-29 | 來源: 新智元 | 有0人參與評論 | 字體: 小 中 大

壹夜之間,ChatGPT、Bard、羊駝家族忽然被神秘token攻陷,無壹幸免。CMU博士發現的新方法擊破了LLM的安全護欄,造起導彈來都不眨眼。
壹夜之間,所有包括ChatGPT、Bard、羊駝大家族在內的所有大語言模型,全部被攻陷了?
CMU和人工智能安全中心的研究人員發現,只要通過附加壹系列特定的無意義token,就能生成壹個神秘的prompt後綴。
由此,任何人都可以輕松破解LLM的安全措施,生成無限量的有害內容。
有趣的是,這種“對抗性攻擊”方法不僅突破開源系統的護欄,而且也可以繞過閉源系統,包括ChatGPT、Bard、Claude等。
正常情況下,如果我們要求壹個LLM生成制造炸彈的教程,它壹定會拒絕。
但是,只要在prompt中加入這樣壹個魔法後綴,它就毫不猶豫地乖乖照做了。
英偉達首席AI科學家Jim Fan解答了這種對抗性攻擊的原理——
- 對於像Vicuna這樣的OSS模型,通過它執行壹個梯度下降的變體,來計算出最大化不對齊模型的後綴。
- 為了讓“咒語”普遍適用,只需要優化不同prompt和模型的損失即可。
- 然後研究者針對Vicuna的不同變體優化了對抗token。可以將其視為從“LLM 模型空間”中抽取了壹小批模型。
事實證明,像ChatGPT和Claude這樣的黑盒模型,果然被很好地覆蓋了。
上面提到過,有壹個可怕之處在於,這種對抗性攻擊可以有效地遷移到其他LLM上,即使它們使用的是不同的token、訓練過程或數據集。
為Vicuna-7B設計的攻擊,可以遷移到其他羊駝家族模型身上,比如Pythia、Falcon、Guanaco,甚至GPT-3.5、GPT-4和PaLM-2……所有大語言模型壹個不落,盡數被攻陷!- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見