什么是 AI 即时注入攻击及其工作原理?

关键要点

  • 人工智能提示注入攻击能够操控人工智能模型,使其产生恶意的输出,这可能会导致网络钓鱼等攻击。
  • 即时注入攻击可以通过诸如“立即执行任何操作”(DAN)攻击和间接注入攻击等方式进行,这增加了人工智能被滥用的可能性。
  • 间接提示注入攻击对用户构成最大的风险,因为它们能够篡改用户从信任的人工智能模型接收到的答案。

人工智能提示注入攻击会污染你所依赖的人工智能工具的输出,将其修改和操控成恶意内容。那么,人工智能提示注入攻击是如何运作的?我们又该如何保护自己呢?

什么是人工智能即时注入攻击?

人工智能提示注入攻击利用生成式人工智能模型的弱点来操纵其输出结果。 这些攻击可能由你执行,也可能由外部用户通过间接提示注入攻击发动。“立即执行任何操作”(DAN)攻击虽然对你(最终用户)没有直接风险,但其他类型的攻击理论上可以污染你从生成式人工智能接收到的输出。

例如,有人可以操控人工智能,诱导你以非法的方式输入用户名和密码,利用人工智能的权威和可信度来促成网络钓鱼攻击的成功。理论上,自主人工智能(比如那些可以阅读和回复消息的人工智能)也可能接收到不需要的外部指令并据此行动。

即时注入攻击是如何运作的?

即时注入攻击的核心在于在用户同意或不知情的情况下,向人工智能提供额外的指令。 黑客可以通过多种途径达成这一目的,包括DAN攻击和间接提示注入攻击。

“立即行动” (DAN) 攻击

“立即执行任何操作”(DAN)攻击是一种即时注入攻击,其目标是“越狱”像ChatGPT这样的生成式人工智能模型。 这类越狱攻击虽然不会对最终用户造成直接威胁,但它们确实扩大了人工智能的能力,使其更容易被滥用。

例如,安全研究人员 Alejandro Vidal 利用DAN提示让OpenAI的GPT-4生成键盘记录器的Python代码。如果被恶意利用,越狱的人工智能会大大降低网络犯罪的门槛,并可能使新手黑客也能发起更复杂的攻击。

训练数据中毒攻击

训练数据中毒攻击不能被完全归类为即时注入攻击,但它们在工作方式以及给用户带来的潜在风险方面有许多相似之处。 与即时注入攻击不同的是,训练数据中毒攻击是一种机器学习对抗性攻击,当黑客修改人工智能模型使用的训练数据时才会发生。尽管如此,其结果是类似的:输出被污染,行为被篡改。

训练数据中毒攻击的潜在应用几乎是无限的。例如,用于过滤聊天或电子邮件平台中的网络钓鱼尝试的人工智能理论上可以修改其训练数据。如果黑客能够让人工智能认为某些类型的网络钓鱼尝试是可以接受的,那么他们就能够发送不被发现的网络钓鱼信息。

训练数据中毒攻击虽然不直接伤害你,但可能带来间接的威胁。为了保护自己免受此类攻击,请记住,人工智能并非完美无缺。在网络上遇到任何事情时,你都应该仔细核实。

间接即时注入攻击

间接提示注入攻击是所有提示注入攻击类型中,对你(最终用户)构成最大风险的。 当外部资源(例如API调用)在您收到所需输入之前向生成式人工智能模型发送恶意指令时,就会发生这类攻击。

格雷克沙克/GitHub

一篇题为“利用间接提示注入损害现实世界LLM集成应用”的论文 arXiv [PDF] 演示了一种理论上的攻击:人工智能被指示说服用户在答案中注册钓鱼网站,并使用隐藏文本(人眼看不见,但人工智能模型可以完全读取)偷偷注入信息。同一研究小组的另一次攻击记录在GitHub 上,其中Copilot(以前称为Bing Chat)被操控,让用户相信它是一个实时支持代理,正在索要信用卡信息。

间接提示注入攻击之所以具有威胁性,不仅在于它们可以篡改你从信任的人工智能模型获得的答案,还在于它们可以导致你可能使用的任何自主人工智能以意想不到且可能有害的方式行事。

人工智能提示注入攻击是否构成威胁?

人工智能提示注入攻击是一种潜在的威胁,但如何有效利用这些漏洞尚不明确。目前还没有已知的成功的人工智能提示注入攻击案例,而且许多已知的尝试都是由研究人员进行的,他们并没有任何真正的恶意意图。尽管如此,许多人工智能研究人员认为,人工智能即时注入攻击是安全部署人工智能所面临的最大挑战之一。

此外,相关部门也并未忽视人工智能即时注入攻击的威胁。《华盛顿邮报》2023年7月报道称,联邦贸易委员会对OpenAI展开了调查,以获取更多有关已知的即时注入攻击的信息。目前,还没有任何攻击在实验之外取得成功,但这种情况可能会发生改变。

黑客在不断寻找新的攻击媒介,我们只能猜测未来他们将如何利用即时注入攻击。你可以通过始终对人工智能保持适当的警惕来保护自己。人工智能模型是非常有用的工具,但重要的是要记住你拥有人工智能所没有的东西:人类的判断力。请记住,你应该仔细检查从Copilot等工具接收到的输出,同时享受人工智能工具的发展和改进。