A Trembling House of Cards? Mapping Adversarial Attacks against Language Agents

要約

大規模言語モデル (LLM) を利用した言語エージェントは爆発的に開発されています。
思考とコミュニケーションの手段として言語を使用する彼らの能力は、信じられないほどのレベルの柔軟性と多用途性をもたらします。
人々はこの機能をすぐに利用して、LLM をデータベース、ツール、インターネット、ロボットの具現化などの幅広い外部コンポーネントや環境に接続します。前例のない強力な自動化テクノロジが出現すると多くの人が信じています。
ただし、新しい自動化テクノロジには、特に言語エージェントのような複雑なシステムの場合、新たな安全上のリスクが伴います。
それらの開発と導入のスピードと規模と、それらの安全性リスクについての私たちの理解の間には、驚くほど大きな隔たりがあります。
私たちは砂上の楼閣を建てているのでしょうか?
このポジションペーパーでは、言語エージェントに対する敵対的攻撃をマッピングする最初の体系的な取り組みを紹介します。
まず、知覚、脳、行動という 3 つの主要なコンポーネントを備えたエージェントの統一された概念フレームワークを提示します。
このフレームワークの下で、私たちは包括的な議論を提示し、さまざまな攻撃戦略 (入力操作、敵対的なデモンストレーション、脱獄、バックドアなど) をカバーする、エージェントのさまざまなコンポーネントに対する 12 の潜在的な攻撃シナリオを提案します。
また、以前に LLM に適用されて成功した攻撃戦略との関連性も引き出します。
私たちは、言語エージェントを広く導入する前に、言語エージェントのリスクを徹底的に理解することが急務であることを強調します。

要約(オリジナル)

Language agents powered by large language models (LLMs) have seen exploding development. Their capability of using language as a vehicle for thought and communication lends an incredible level of flexibility and versatility. People have quickly capitalized on this capability to connect LLMs to a wide range of external components and environments: databases, tools, the Internet, robotic embodiment, etc. Many believe an unprecedentedly powerful automation technology is emerging. However, new automation technologies come with new safety risks, especially for intricate systems like language agents. There is a surprisingly large gap between the speed and scale of their development and deployment and our understanding of their safety risks. Are we building a house of cards? In this position paper, we present the first systematic effort in mapping adversarial attacks against language agents. We first present a unified conceptual framework for agents with three major components: Perception, Brain, and Action. Under this framework, we present a comprehensive discussion and propose 12 potential attack scenarios against different components of an agent, covering different attack strategies (e.g., input manipulation, adversarial demonstrations, jailbreaking, backdoors). We also draw connections to successful attack strategies previously applied to LLMs. We emphasize the urgency to gain a thorough understanding of language agent risks before their widespread deployment.

arxiv情報

著者 Lingbo Mo,Zeyi Liao,Boyuan Zheng,Yu Su,Chaowei Xiao,Huan Sun
発行日 2024-02-15 18:51:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク