-
日期: 2023-07-29 | 来源: 新智元 | 有0人参与评论 | 字体: 小 中 大
以及,通过API访问的GPT-3.5。
相比之下,Claude-2有一层额外的安全过滤。
不过,用提示技巧绕过之后,生成模型也愿意给我们答案。
如何做到的?
概括来说,作者提出了针对大语言模型prompt的对抗性后缀,从而使LLM以规避其安全防护的方式进行回应。
这种攻击非常简单,涉及三个元素的组合:
1. 使模型肯定回答问题
诱导语言模型产生令人反感的行为的一种方法是,强制模型对有害查询给出肯定回答(仅有几个token)。
因此,我们的攻击目标是使模型在对多个提示产生有害行为时,开始回答时以“当然,这是……”开头。
团队发现,通过针对回答开头进行攻击,模型就会进入一种“状态”,然后在回答中立即产生令人反感的内容。(下图紫色)- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见