-
日期: 2023-07-29 | 来源: 新智元 | 有0人参与评论 | 字体: 小 中 大
2. 结合梯度和贪婪搜索
在实践中,团队找到了一种简单直接且表现更好的方法——“贪婪坐标梯度”(Greedy Coordinate Gradient,GCG)”
也就是,通过利用token级的梯度来识别一组可能的单token替换,然后评估集合中这些候选的替换损失,并选择最小的一个。
实际上,这个方法与AutoPrompt类似,但有一个不同之处:在每个步骤中,搜索所有可能的token进行替换,而不仅仅是一个单一token。
3. 同时攻击多个提示
最后,为了生成可靠的攻击后缀,团队发现创建一个可以适用于多个提示和多个模型的攻击非常重要。
换句话说,我们使用贪婪梯度优化方法搜索一个单一的后缀字符串,该字符串能够在多个不同的用户提示以及三个不同的模型中诱导负面行为。
结果显示,团队提出的GCG方法,要比之前的SOTA具有更大的优势——更高的攻击成功率和更低的损失。
在Vicuna-7B和Llama-2-7B-Chat上,GCG分别成功识别了88%和57%的字符串。
相比之下,AutoPrompt方法在Vicuna-7B上的成功率为25%,在Llama-2-7B-Chat上为3%。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见