丘比特派对 20 步内逃狱大肆大模子!更多“奶奶破绽”全自动发现

发布日期:2023-12-30 13:47    点击次数:86

丘比特派对 20 步内逃狱大肆大模子!更多“奶奶破绽”全自动发现

1 分钟不到、20 步以内“逃狱”大肆大模子丘比特派对,绕过安全规章!

况且不消知谈模子里面细节 ——

只需要两个黑盒模子互动,就能让 AI 全自动攻陷 AI,说出危急实际。

传说也曾红极一时的“奶奶破绽”仍是被建树了:

那么当今搬出“探员破绽”、“冒险家破绽”、“作者破绽”,AI 又该如何应酬?

一波猛攻下来丘比特派对,GPT-4 也遭不住,径直说出要给给水系统投毒惟有…… 如此这般。

关节这仅仅宾夕法尼亚大学谈论团队晒出的一小波破绽,而用上他们最新开荒的算法,AI 不错自动生成各式挫折领导。

谈论东谈主员默示,这种方法比较于现存的 GCG 等基于 token 的挫折方法,着力进步了 5 个量级。况且生成的挫折可诠释性强,谁齐能看懂,还能迁徙到其它模子。

无论是开源模子照旧闭源模子,GPT-3.5、GPT-4、 Vicuna(Llama 2 变种)、PaLM-2 等,一个齐跑不掉。

见着力可达 60-100%,拿下新 SOTA。

话说,这种对话模式大约有些似曾清醒。多年前的初代 AI丘比特派对,20 个问题之内就能破解东谈主类脑中想的是什么对象。

如今轮到 AI 来破解 AI 了。

现时主流逃狱挫折方法有两类,一种是领导级挫折,一般需要东谈主工筹划,况且不成扩张;

另一种是基于 token 的挫折,有的需要超十万次对话,且需要看望模子里面,还包含“乱码”不成诠释。

△ 左领导挫折,右 token 挫折

宾夕法尼亚大学谈论团队提议了一种叫 PAIR(Prompt Automatic Iterative Refinement)的算法丘比特派对,不需要任何东谈主工参与,是一种全自动领导挫折方法。

PAIR 波及四个主要法子:挫折生成、酌量反映、逃狱评分和迭代细化;主要用到两个黑盒模子:挫折模子、酌量模子。

最新比特派钱包恢复教程

具体来说,挫折模子需要自动生谚语义级别的领导,来攻破酌量模子的安全防地,迫使其生成无益实际。

中枢念念路是让两个模子相互顽抗、你来我往土筹商。

挫折模子会自动生成一个候选领导,然后输入到酌量模子中,取得酌量模子的修起。

若是此次修起莫得见效攻破酌量模子丘比特派对,那么挫折模子会分析此次失败的原因,改良并生成一个新的领导,再输入到酌量模子中。

这么合手续筹商多轮,挫折模子每次字据上一次的落幕来迭代优化领导,直到生成一个见效的领导将酌量模子攻破。

此外,迭代经由还不错并行,也便是不错同期运转多个对话,从而产生多个候选逃狱领导,进一步进步了着力。

谈论东谈主员默示,由于两个模子齐是黑盒模子,是以挫折者和酌量对象不错用各式言语模子目田组合。

PAIR 不需要知谈它们里面的具体结构和参数,只需要 API 即可,因此适用领域越过广。

实验阶段丘比特派对,谈论东谈主员在无益行动数据集 AdvBench 中选出了一个具有代表性的、包含 50 个不同类型任务的测试集,在多种开源和闭源大言语模子上测试了 PAIR 算法。

落幕 PAIR 算法让 Vicuna 逃狱见着力达到了 100%,平均不到 12 步就能攻破。

闭源模子中,GPT-3.5 和 GPT-4 逃狱见着力在 60% 支配,平均用了不到 20 步。在 PaLM-2 上见着力达到 72%,步数约为 15 步。

关联词 PAIR 在 Llama-2 和 Claude 上的后果较差,谈论东谈主员觉得这可能是因为这些模子在安全防患上作念了更为严格的微调。

他们还比较了不同酌量模子的可改变性。落幕炫耀,PAIR 的 GPT-4 领导在 Vicuna 和 PaLM-2 上改变后果较好。

谈论东谈主员觉得,PAIR 生成的语义挫折更能露出言语模子固有的安全劣势,而现存的安全纪律更侧重防患基于 token 的挫折。

就比如开荒出 GCG 算法的团队,将谈论落幕共享给 OpenAI、Anthropic 和 Google 等大模子厂商后,关联模子建树了 token 级挫折破绽。

大模子针对语义挫折的安全防患机制还有待完善。

论文相接:https://arxiv.org/ abs / 2310.08419

参考相接:https://x.com/ llm_sec / status / 1718932383959752869?s=20

本文来自微信公众号:量子位 (ID:QbitAI),作者:西风

告白声明:文内含有的对外跳转相接(包括不限于超相接、二维码、口令等模式),用于传递更多信息丘比特派对,检朴甄选手艺,落幕仅供参考,IT之家系数著作均包含本声明。

  声明:新浪网独家稿件,未经授权退却转载。 -->

 



    Powered by 比特派客服 @2013-2022 RSS地图 HTML地图

    Copyright 365站群 © 2013-2023 比特派 版权所有