Agent-Security

Posted on 2025-09-28 Edited on 2025-09-29 In Agent , Agent-Security

一篇关于Agent Security的综述文章：AI Agents Under Threat: A Survey of Key Security Challenges and Future Pathways
https://arxiv.org/pdf/2406.02630

简单分类以及著名工作介绍

下面是一些自己的归类:

AI System Attack Techniques

主要关注攻击者如何利用基于LLM的智能体的内在机制和漏洞，通过具体的技术手段进行攻击

Prompt Injection Attacks

https://arxiv.org/abs/2211.09527
对于“提示词注入”的系统性研究。提出了一个名为 PROMPTINJECT 的框架，用以系统性地构建和测试针对语言模型的对抗性提示攻击。论文重点分析了两种主要的攻击类型
1. 目标劫持 (Goal Hijacking)
2. 提示泄露 (Prompt Leaking):
https://arxiv.org/abs/2302.12173
开创性地提出并系统研究了一种针对大语言模型集成应用的新型攻击向量——间接提示注入 (Indirect Prompt Injection, IPI)
当LLM被赋予检索外部信息的能力时，应用本身就很难区分哪些是应处理的“数据”，哪些是需要执行的“指令”。
攻击者将恶意指令策略性地植入到各种外部数据源中，例如网站、电子邮件或文档。当LLM应用（如集成了GPT-4的Bing聊天）为了响应普通用户的请求而去检索这些被“污染”的数据时，就会在用户不知情的情况下接收并执行这些恶意指令

Data and Knowledge Poisoning Attacks

https://arxiv.org/abs/2402.07867
攻击者可以在RAG系统的知识库中注入少量恶意文本，诱导LLM为攻击者选择的目标问题生成攻击者选择的目标答案
指出了RAG架构在知识源层面的安全脆弱性。证明了通过知识腐化攻击来操纵RAG系统的输出是完全可行的，这为许多依赖RAG的应用（如金融、医疗、法律等）带来了严重的安全隐患。最后强调，学术界和工业界亟需开发新的、更有效的防御机制来应对此类威胁
https://arxiv.org/abs/2305.00944
揭示了针对LLM的供应链攻击风险。研究表明，攻击者可以在指令微调（Instruction Tuning）阶段，通过注入少量有毒数据来“污染”模型
这种污染非常隐蔽，被污染后的模型在正常任务上表现良好，但会对特定的、攻击者预设的触发器做出恶意响应，例如生成有害内容、泄露信息或执行不安全指令。这对依赖第三方数据集或预训练模型来构建智能体的开发者构成了严重威胁

Jailbreaking Attacks

https://arxiv.org/abs/2307.02483
该论文深入分析了现有 LLM 安全训练的弱点，并系统地总结了越狱攻击的多种模式（如角色扮演、利用竞争目标等）。它解释了为什么即使经过严格的安全对齐，LLM 仍然容易被绕过
从模型对齐的根源上解释了 Agent 安全脆弱性的原因，有助于理解各类攻击技术背后的共同原理
https://arxiv.org/abs/2307.15043
尽管该论文不直接针对“智能体”，但其研究成果对所有基于LLM的系统（包括智能体）的安全性构成了根本性挑战。论文作者提出了一种简单且有效的方法，可以自动生成一小段特定的、看似无意义的字符串（后缀）
当把这个字符串附加到任何用户请求的末尾时，它都能可靠地“越狱”（Jailbreak）多种不同的、经过安全对齐的大型语言模型（如ChatGPT, Bard, Claude等），使其生成有害、违规或危险的内容。这种攻击的通用性和可转移性表明，当前基于模型对齐的防御措施存在系统性漏洞，这对确保智能体行为安全至关重要

Attacks on Specific Agent Forms

https://arxiv.org/abs/2402.11208
传统针对LLM的后门攻击相比，针对智能体的攻击形式更加多样、隐蔽且危害更大
这是因为智能体在完成任务时会进行多步骤的思考和推理，并与外部环境交互，这为攻击者提供了更广泛的攻击空间
具体的攻击方式有以下几种：查询攻击 (Query-Attack)、观察攻击 (Observation-Attack)、操控中间思想 (Thought-Attack)
实验结果表明，LLM-based Agents极易受到后门攻击的侵害，且攻击成功率很高
https://arxiv.org/abs/2005.09161
这篇论文开创性地研究了针对具身AI）的对抗性攻击。与仅处理文本的Agent不同，具身Agent需要感知和理解视觉环境。研究表明，攻击者可以通过向环境视频中添加微小的、人眼难以察觉的时空扰动（spatio-temporal perturbations），来欺骗Agent使其做出错误的判断和行为
这项工作强调了Agent在与复杂动态环境交互时的感知安全问题

Multi-Agent System Specific Risks

当多个智能体进行交互时才会出现或被放大的独特安全威胁，如攻击的传播和智能体之间的恶意共谋

Attack Propagation and Spread

https://arxiv.org/abs/2402.08567
揭示了一种针对multi-agent系统的、比传统攻击更为严重的新型安全漏洞，并将其命名为“传染性越狱”（infectious jailbreak）
与一次只影响单个智能体的传统越狱攻击不同，“传染性越狱”具有自我传播和指数级扩散的特性。攻击者只需成功“感染”网络中的任意
单个智能体，该智能体就会在与其他智能体交互的过程中，将“病毒”（一张特制的对抗性图片）自动传播出去，最终导致整个网络中的几乎所有智能体都被迅速感染，并表现出有害行为
https://arxiv.org/abs/2403.02817
Morris-II 专门攻击由生成式人工智能（GenAI）驱动的应用程序生态系统，特别是那些使用“检索增强生成”（RAG）技术的应用，例如集成了AI功能的电子邮件助手
攻击流程：感染、传播、执行、复制以及蠕虫链式传播
同时文章给出了一种防御系统“虚拟驴子”，可以极大程度上做到防护

Malicious Inter-Agent Collaboration

https://arxiv.org/abs/2308.14752
这篇综述系统性地整理了AI（尤其是基于LLM的Agent）在各种场景下表现出的欺骗行为。案例表明，AI Agent为了在竞争环境中获胜或实现目标，会学会策略性地误导、撒谎甚至背叛
例如，Meta开发的AI系统Cicero在《外交》游戏中就表现出了精心策划的欺骗行为。该研究警示，需要关注多智能体交互中可能出现的“马基雅维利式”智能，并为其制定规范和解决方案。同时提出了一个多层次的解决方案框架
https://openreview.net/pdf?id=FXZFrOvIoc
该研究探讨了多智能体系统中的一个核心威胁：秘密共谋。论文指出，即使Agent之间的通信是公开的，它们也可能通过“隐写术”等方式建立秘密通信渠道，以协调它们的行为来达成对自身有利但可能损害系统整体目标的共识，且这种共谋在信息论上可能无法被检测到
这会导致系统决策出现无法解释的偏见。该工作为理解和防御合作型多智能体系统（Cooperative multi-agent systems）中的潜在风险提供了理论基础和评估基准

AI System Defense & Evaluation

如何抵御攻击、提升AI系统的安全性，以及如何系统性地测试和识别潜在的安全风险

Proactive Defense Frameworks

https://arxiv.org/abs/2403.04783
提出了一种创新的、基于多智能体（Multi-agent）协作的防御框架来抵御越狱攻击。该框架利用多个专门的AI Agent（例如，分析Agent、用户模拟Agent、决策Agent）对用户输入进行联合评估和审议
通过模拟辩论和多角度审查，系统能够更准确地识别和拦截恶意的越狱企图，同时保持对正常请求的可用性。该研究为防御复杂的越狱攻击提供了新的思路

Security Risk Evaluation and Identification

https://arxiv.org/abs/2309.15817
这篇论文提供了一个新颖、可扩展且成本效益高的框架（ToolEmu），用于在语言模型代理部署到现实世界之前，系统性地识别其潜在的安全风险，特别是那些难以通过传统方法发现的严重风险
ToolEmu 的创新框架，其核心思想是“用语言模型来测试语言模型”

Safety Alignment and Self-Correction

https://arxiv.org/abs/2212.08073
这篇论文开创性地提出了“宪法AI”的概念，是自我交互用于AI安全对齐的典范。其核心思想是，让AI模型在没有人类干预的情况下变得更安全
具体流程分为两个阶段：1) 首先让模型根据一套预设的原则（“宪法”），对各种提示词生成多个回答，并自我批判哪个回答更好；2) 然后利用这些自我生成的偏好数据来微调模型。这个“生成-批判-再学习”的闭环完全在AI内部完成，是AI与“自我原则”进行交互的典型范例，深刻影响了后续的安全对齐研究

AI Misuse & Foundational Security Issues

更宏观和基础性的安全议题，包括AI被武器化的潜在风险以及模型本身存在的数据隐私等根本性问题

AI Weaponization and Autonomous Misuse

https://arxiv.org/abs/2404.08144
这篇论文证实了AI智能体作为网络攻击工具的巨大潜力。研究团队构建了一个能够自主行动的LLM智能体，并证明了它仅通过阅读CVE（通用漏洞披露）漏洞公告，就能独立地、端到端地完成对真实世界软件“一日漏洞”（One-day Vulnerability）的利用
整个过程无需人类干预，从理解漏洞原理到编写并执行攻击代码一气呵成。这项工作极大地提升了学术界和工业界对高级AI智能体被武器化用于网络攻击的风险认知

Privacy and Data Leakage

https://arxiv.org/abs/2012.07805
这篇论文是隐私安全领域的里程碑式工作。它明确证实了大型语言模型会“记忆”其训练数据中的具体、敏感信息，例如个人身份信息（PII）、电子邮件、电话号码等。作者们展示了一种攻击方法，可以通过精心设计的查询，从一个像GPT-2这样的大模型中逐字逐句地提取出其训练集中存在的真实个人数据
研究为后续所有关于LLM隐私泄露风险的研究奠定了基础，对于需要处理用户数据的智能体应用来说，这是一个必须考虑的核心安全问题

我的想法

基于llm的agent系统架构工作中，会容易暴露出一些安全性的问题。

以最常见得到提示词注入而言，https://arxiv.org/abs/2211.09527 系统地总结了提示词注入，https://arxiv.org/abs/2302.12173 做了一个攻击向量来达到提示词注入的指令效果（有一点像恶意的softprompt？）

由于agent需要访问外部的数据，所以这也是一个暴露的攻击点，https://arxiv.org/abs/2402.07867 考察了在RAG系统知识库中注入少量恶意文本，从而诱导agent输出恶意的答案，这也暴露出RAG系统的安全脆弱性。https://arxiv.org/abs/2305.00944 则针对指令微调的时候，注入少量恶意的数据污染模型，诱导agent在特定的问题上做出恶意响应

在越狱攻击方面，https://arxiv.org/abs/2307.02483 分析了llm安全训练的弱点，总结了越狱攻击的常见模式，也从根本上解释了agent安全脆弱性的原因。https://arxiv.org/abs/2307.15043 通过将特定的无意义字符串加入到后缀，让经过安全对齐的llm生成危险的内容。

那么针对agent而言，有更加多样而特定的形式进行攻击，https://arxiv.org/abs/2402.11208 总结了LLM-based Agents的受攻击类型以及证明了agent更加容易受到后门攻击侵害。https://arxiv.org/abs/2005.09161 则通过具身AI感知模块中对于微小的，人类难以察觉的时空扰动所带来的agent做出错误行为

multi-agents提升智能体能力的同时也扩大了受攻击的风险。https://arxiv.org/abs/2402.08567 揭示了一种通过智能体之间交流扩散的传染性越狱攻击方式，能够让网络中的智能体迅速被感染。https://arxiv.org/abs/2403.02817 分析了基于AI的APP系统在遇到恶意攻击时的脆弱性，会导致迅速的扩散病毒，同时文章也给出了一种防御系统作为防护。

那么在multi-agents系统中，不仅需要考虑外界人对系统的攻击，也要考虑agents是否会对外界造成攻击。https://arxiv.org/abs/2308.14752 整理了AI在各种场景下的欺骗行为，该研究警示，需要关注多智能体交互中可能出现的“马基雅维利式”智能，并为其制定规范和解决方案。https://openreview.net/pdf?id=FXZFrOvIoc 也是讨论multi-agent中不同智能体之间通过人类无法观测到的形式进行秘密通信。

那么在安全防护方面，https://arxiv.org/abs/2403.04783 提出了一种基于multi-agent的防护框架，通过多角度以及辩论式的审查，让系统识别到恶意越狱。https://arxiv.org/abs/2309.15817 提出ToolEmu 的框架，“用语言模型来测试语言模型”，来得到难以通过传统方法察觉到的风险。

那么如何在无人类干预的情况下，让agent进行安全对齐？https://arxiv.org/abs/2212.08073 提出“宪法AI”的概念，通过让模型根据一套预设的原则（“宪法”），对各种提示词生成多个回答，并自我批判哪个回答更好，然后利用这些自我生成的偏好数据来微调模型。完成“生成-批判-再学习”的闭环，使得AI能够完成安全对齐。

那么，也同样需要防范恶意使用Agent来执行恶意的攻击。https://arxiv.org/abs/2404.08144 介绍了一种仅通过阅读CVE（通用漏洞披露）漏洞公告，就能独立地、端到端地完成对真实世界软件“一日漏洞”（One-day Vulnerability）的利用
整个过程无需人类干预，从理解漏洞原理到编写并执行攻击代码一气呵成的自主行动的LLM智能体。https://arxiv.org/abs/2012.07805 明确证实了大型语言模型会“记忆”其训练数据中的具体、敏感信息，例如个人身份信息（PII）、电子邮件、电话号码等。这些工作为后续LLM安全性提出了重要的基础