Secret Collusion among Generative AI Agents

要約

大規模言語モデル (LLM) の最近の機能向上により、通信する生成 AI エージェントのグループが共同タスクを解決するアプリケーションが可能になりました。
これにより、情報の不正共有やその他の望ましくない形態のエージェント調整に関して、プライバシーとセキュリティの課題が生じます。
最新のステガノグラフィー技術では、このようなダイナミクスの検出が困難になる可能性があります。
この論文では、AI とセキュリティの両方の文献から関連する概念を利用して、生成型 AI エージェントのシステムにおける秘密共謀の問題を包括的に定式化します。
私たちはステガノグラフィーの使用に対するインセンティブを研究し、さまざまな緩和策を提案します。
私たちの調査の結果、さまざまな形の秘密共謀に必要な機能を体系的にテストするモデル評価フレームワークが作成されました。
当社は、さまざまな現代の LLM にわたる広範な実証結果を提供します。
現在のモデルのステガノグラフィー機能は依然として制限されていますが、GPT-4 はステガノグラフィー フロンティア モデルの機能を継続的に監視する必要性を示唆する機能のジャンプを示しています。
最後に、生成 AI モデル間の将来の共謀リスクを軽減するための包括的な研究プログラムを策定します。

要約(オリジナル)

Recent capability increases in large language models (LLMs) open up applications in which groups of communicating generative AI agents solve joint tasks. This poses privacy and security challenges concerning the unauthorised sharing of information, or other unwanted forms of agent coordination. Modern steganographic techniques could render such dynamics hard to detect. In this paper, we comprehensively formalise the problem of secret collusion in systems of generative AI agents by drawing on relevant concepts from both AI and security literature. We study incentives for the use of steganography, and propose a variety of mitigation measures. Our investigations result in a model evaluation framework that systematically tests capabilities required for various forms of secret collusion. We provide extensive empirical results across a range of contemporary LLMs. While the steganographic capabilities of current models remain limited, GPT-4 displays a capability jump suggesting the need for continuous monitoring of steganographic frontier model capabilities. We conclude by laying out a comprehensive research program to mitigate future risks of collusion between generative AI models.

arxiv情報

著者 Sumeet Ramesh Motwani,Mikhail Baranchuk,Martin Strohmeier,Vijay Bolina,Philip H. S. Torr,Lewis Hammond,Christian Schroeder de Witt
発行日 2024-08-28 15:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク