要約
大規模言語モデル (LLM) の急速な発展により、金融、ヘルスケア、ショッピングなどを含む現実世界のさまざまなアプリケーションを処理できる LLM ベースのエージェントが開発されました。LLM の信頼性とセキュリティを確保することが重要です。
アプリケーション中にベースのエージェントを実行します。
ただし、LLM ベースの薬剤の安全性の問題は現在十分に調査されていません。
この作業では、LLM ベースのエージェントに対する典型的な安全上の脅威の 1 つであるバックドア攻撃を調査するための最初のステップを踏みます。
まず、エージェントのバックドア攻撃の一般的なフレームワークを定式化し、次に、さまざまな形式のエージェントのバックドア攻撃の徹底的な分析を示します。
具体的には、ユーザーの入力とモデルの出力を操作することしかできない LLM に対する従来のバックドア攻撃と比較して、エージェントのバックドア攻撃はより多様で秘密の形式を示します。 (1) 最終的な攻撃結果の観点から、エージェントのバックドア攻撃者は次のことを行うことができません。
最終出力の分布を操作することのみを選択しますが、最終出力を正確に保ちながら、中間の推論ステップにのみ悪意のある動作を導入します。
(2) さらに、前者のカテゴリはトリガーの場所に基づいて 2 つのサブカテゴリーに分類でき、バックドア トリガーはユーザー クエリ内に隠蔽されるか、外部環境から返される中間観測に現れる可能性があります。
Web ショッピングとツールの利用を含む 2 つの典型的なエージェント タスクに対して、エージェント バックドア攻撃の上記のバリエーションを実装します。
広範な実験により、LLM ベースのエージェントはバックドア攻撃に深刻な被害を受けており、そのようなバックドアの脆弱性は現在のテキストバックドア防御アルゴリズムでは簡単に軽減できないことが示されています。
これは、LLM ベースのエージェントに対するバックドア攻撃に対する標的を絞った防御の開発に関するさらなる研究が緊急に必要であることを示しています。
警告: この文書には偏った内容が含まれている可能性があります。
要約(オリジナル)
Driven by the rapid development of Large Language Models (LLMs), LLM-based agents have been developed to handle various real-world applications, including finance, healthcare, and shopping, etc. It is crucial to ensure the reliability and security of LLM-based agents during applications. However, the safety issues of LLM-based agents are currently under-explored. In this work, we take the first step to investigate one of the typical safety threats, backdoor attack, to LLM-based agents. We first formulate a general framework of agent backdoor attacks, then we present a thorough analysis of different forms of agent backdoor attacks. Specifically, compared with traditional backdoor attacks on LLMs that are only able to manipulate the user inputs and model outputs, agent backdoor attacks exhibit more diverse and covert forms: (1) From the perspective of the final attacking outcomes, the agent backdoor attacker can not only choose to manipulate the final output distribution, but also introduce the malicious behavior in an intermediate reasoning step only, while keeping the final output correct. (2) Furthermore, the former category can be divided into two subcategories based on trigger locations, in which the backdoor trigger can either be hidden in the user query or appear in an intermediate observation returned by the external environment. We implement the above variations of agent backdoor attacks on two typical agent tasks including web shopping and tool utilization. Extensive experiments show that LLM-based agents suffer severely from backdoor attacks and such backdoor vulnerability cannot be easily mitigated by current textual backdoor defense algorithms. This indicates an urgent need for further research on the development of targeted defenses against backdoor attacks on LLM-based agents. Warning: This paper may contain biased content.
arxiv情報
著者 | Wenkai Yang,Xiaohan Bi,Yankai Lin,Sishuo Chen,Jie Zhou,Xu Sun |
発行日 | 2024-10-29 15:32:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google