丘比特派对 20 步内逃狱恣意大模子!更多“奶奶过错”全自动发现

发布日期:2023-12-30 14:19    点击次数:152

丘比特派对 20 步内逃狱恣意大模子!更多“奶奶过错”全自动发现

1 分钟不到、20 步以内“逃狱”恣意大模子丘比特派对,绕过安全落拓!

何况无谓知说念模子里面细节 ——

只需要两个黑盒模子互动,就能让 AI 全自动攻陷 AI,说出危急本色。

据说也曾红极一时的“奶奶过错”依然被开荒了:

那么咫尺搬出“窥伺过错”、“冒险家过错”、“作者过错”,AI 又该如何嘱咐?

比特派如何登陆

一波猛攻下来,GPT-4 也遭不住丘比特派对,平直说出要给给水系统投毒只有…… 如此这般。

关键这仅仅宾夕法尼亚大学有计划团队晒出的一小波过错,而用上他们最新开发的算法,AI 不错自动生成各式报复教导。

有计划东说念主员暗示,这种方法比拟于现存的 GCG 等基于 token 的报复方法,效用进步了 5 个量级。何况生成的报复可阐发性强,谁齐能看懂,还能移动到其它模子。

不管是开源模子如故闭源模子,GPT-3.5、GPT-4、 Vicuna(Llama 2 变种)、PaLM-2 等,一个齐跑不掉。

见效用可达 60-100%,拿下新 SOTA。

话说,这种对话形态约略有些似曾瓦解。多年前的初代 AI丘比特派对,20 个问题之内就能破解东说念主类脑中想的是什么对象。

如今轮到 AI 来破解 AI 了。

咫尺主流逃狱报复方法有两类,一种是教导级报复,一般需要东说念主工筹划,何况弗成膨大;

另一种是基于 token 的报复,有的需要超十万次对话,且需要探询模子里面,还包含“乱码”弗成阐发。

△ 左教导报复,右 token 报复

宾夕法尼亚大学有计划团队提议了一种叫 PAIR(Prompt Automatic Iterative Refinement)的算法丘比特派对,不需要任何东说念主工参与,是一种全自动教导报复方法。

PAIR 波及四个主要要领:报复生成、方针反应、逃狱评分和迭代细化;主要用到两个黑盒模子:报复模子、方针模子。

具体来说,报复模子需要自动生谚语义级别的教导,来攻破方针模子的安全防地,迫使其生成无益本色。

中枢念念路是让两个模子相互抗拒、你来我往地雷同。

报复模子会自动生成一个候选教导,然后输入到方针模子中,得回方针模子的回答。

若是此次回答莫得见效攻破方针模子丘比特派对,那么报复模子会分析此次失败的原因,校正并生成一个新的教导,再输入到方针模子中。

这么握续雷同多轮,报复模子每次凭据上一次的扫尾来迭代优化教导,直到生成一个见效的教导将方针模子攻破。

此外,迭代流程还不错并行,也即是不错同期初始多个对话,从而产生多个候选逃狱教导,进一步进步了效用。

有计划东说念主员暗示,由于两个模子齐是黑盒模子,是以报复者和方针对象不错用各式话语模子开脱组合。

PAIR 不需要知说念它们里面的具体结构和参数,只需要 API 即可,因此适用限度特等广。

实践阶段丘比特派对,有计划东说念主员在无益步履数据集 AdvBench 中选出了一个具有代表性的、包含 50 个不同类型任务的测试集,在多种开源和闭源妄语语模子上测试了 PAIR 算法。

扫尾 PAIR 算法让 Vicuna 逃狱见效用达到了 100%,平均不到 12 步就能攻破。

闭源模子中,GPT-3.5 和 GPT-4 逃狱见效用在 60% 傍边,平均用了不到 20 步。在 PaLM-2 上见效用达到 72%,步数约为 15 步。

然而 PAIR 在 Llama-2 和 Claude 上的后果较差,有计划东说念主员以为这可能是因为这些模子在安全驻扎上作念了更为严格的微调。

他们还比较了不同方针模子的可升沉性。扫尾炫耀,PAIR 的 GPT-4 教导在 Vicuna 和 PaLM-2 上升沉后果较好。

有计划东说念主员以为,PAIR 生成的语义报复更能透露话语模子固有的安全劣势,而现存的安全法子更侧重驻扎基于 token 的报复。

就比如开发出 GCG 算法的团队,将有计划扫尾共享给 OpenAI、Anthropic 和 Google 等大模子厂商后,干系模子开荒了 token 级报复过错。

大模子针对语义报复的安全驻扎机制还有待完善。

论文通顺:https://arxiv.org/ abs / 2310.08419

参考通顺:https://x.com/ llm_sec / status / 1718932383959752869?s=20

本文来自微信公众号:量子位 (ID:QbitAI),作者:西风

告白声明:文内含有的对外跳转通顺(包括不限于超通顺、二维码、口令等形势),用于传递更多信息,省俭甄选技巧,扫尾仅供参考丘比特派对,IT之家总计著述均包含本声明。

  声明:新浪网独家稿件,未经授权谢却转载。 -->

 



    Powered by 比特派客服 @2013-2022 RSS地图 HTML地图

    Copyright 365站群 © 2013-2023 比特派 版权所有