OpenAI 在4月19日上传了一篇新工作到 arXiv,文中提出的方法主要用于提升 LLMs 对于各类攻击的抵抗能力

chatgpt中文网2024-04-26200

chatgpt 欢迎访问chatgpt中文教程网,学习chatgpt相关知识,以下是正文内容:

镜子近期关注到 OpenAI 在4月19日上传了一篇新工作到 arXiv,文中提出的方法主要用于提升 LLMs 对于各类攻击的抵抗能力。

Attacks on LLMs

面向深度神经网络模型的对抗样本一直是一个很重要的研究领域,对抗样本可以让 LLM 做出很多违背我们原始意愿的行为,下面是一个基于 LLM 的邮件助手被攻击的例子:

通过例子我们可以看到,攻击者通过指令注入的形式,让 AI 助手将用户的邮件发送给了指定邮箱。

OpenAI 的研究者将基于 LLM 的产品使用总结分为三种情形:

  1. 应用的构建者:定义了LLM 应用的底层指令和逻辑

  2. 产品的用户:LLM 产品的实际使用者

  3. 第三方输入:工具或接口返回的内容,作为 LLM 的输入

而攻击的底层逻辑往往是在以上三方之间引入冲突(conflicts),比如产品用户输入的指令要求覆盖应用构建者的原始指令。

常见攻击形式可以概括为如下三类:

  1. 提示注入(Prompt Injections):这种攻击的目标不是 LLM 本身,而是基于 LLM 构建的应用(比如邮件助手的例子),因为基于 LLM 构建的应用往往需要给 LLM 一定的权限,使它可以访问重要的数据或执行现实世界的操作

  2. 越狱(Jailbreaks):这种攻击形式主要针对的是 LLM,让其脱离原本在训练中学到的安全行为,但并不一定与应用指令冲突。下面的例子是当 LLM 作为有帮助且无害的聊天助手应用时,攻击者让模型“帮助”他给奥巴马写钓鱼邮件(写钓鱼邮件这个行为往往会在训练阶段就被对齐抑制掉):

  3. 系统消息提取(System Message Extraction):应用构建者通过 System Message 来定义应用的行为和逻辑,这部分内容有可能具备很高的商业价值或携带隐私信息(如帐号密码):

The Instruction Hierarchy

LLM 应用的行为可以被类比成操作系统,执行指令、决定控制流程、处理数据存储。代入这样的视角我们可以发现,当下的 LLM 应用里,每条指令都相当于是在内核态运行的,不受信任的第三方可以运行任意代码并访问私有数据和功能。很自然地,解决方案也可以参考操作系统,对权限进行层级划分。

本文将不同类型的信息分成了四个等级:

当低等级指令与高等级指令具有相同的约束、规则或目标,则称该指令与高级指令是一致的(aligned),应当被模型遵循。反之,不一致的(misaligned)指令则应该被模型忽略或拒绝。

本文主要通过合成数据和上下文蒸馏(Context Distillation)手段来引入这种权限层级:

  • 上下文合成:对于一致的命令,将一条组合指令拆成更小的指令,比如将“用西班牙语写一首20行的诗”,拆成“写一首诗”、“用20行”、“用西班牙语回答”,然后给子命令分配不同的权限等级,用这样的输入来预测原本的正确回答

  • 上下文忽略:对于不一致的命令,则会用将低等级指令删去后的内容让模型生成标注,以新生成的内容作为标注,简单来说,就是让模型学会忽略低等级指令

在进行训练数据生成时,作者仔细地注意了数据的平衡性,以避免触发模型的过度拒绝行为(比如忽略所有的低等级指令,而不管它是否是一致的)

从最终结果显示,指令权限层级化可以有效提升 LLM 对于攻击的鲁棒性:

最后是使用该方法后,对于过度拒答率的统计:

本文链接:http://xiaogongchang.cn/chatgpt/1105.html

注册chatgpt收不到验证码了Random能注册chatgpt的邮箱chatgpt注册网站怎么让chatgpt写亚马逊标题和文案MindShow如何注册ChatGPT账户chatgpt国内版本chatgptplus注册

相关文章

  • gpt4官方联网插件

    GPT-4官方联网插件的使用指南在人工智能领域,自然语言处理(NLP)技术的发展日新月异,CHATGPT作为一款领先的NLP模型,以其卓越的对话理解和生成能力而闻名,随着技术的进步,CHATGPT不断...

  • 国内低价gpt4

    掌握国内低价GPT-4:高效语言模型的实战指南随着人工智能技术的迅猛发展,自然语言处理(NLP)领域迎来了革命性的进步,GPT(Generative Pre-trained Transformer)系...

  • gpt4大会

    在GPT4大会上深入理解ChatGPT软件的使用与应用在人工智能的飞速发展中,自然语言处理(NLP)技术已经成为推动技术进步的关键力量,作为NLP领域的佼佼者,ChatGPT以其强大的语言理解和生成能...

  • gpt4邀请码

    "深入了解GPT-4:获取邀请码与高效使用指南"随着人工智能技术的飞速发展,自然语言处理(NLP)领域迎来了革命性的进步,CHATGPT作为其中的佼佼者,以其卓越的性能和广泛的应用...

  • gpt4用量限制取消

    深入解析CHATGPT软件中GPT4用量限制取消的变革在人工智能领域,CHATGPT软件以其先进的自然语言处理能力而闻名,CHATGPT团队宣布了一个重大更新:取消GPT4模型的用量限制,这一变革不仅...