Deception in Reinforced Autonomous Agents: The Unconventional Rabbit Hat Trick in Legislation

要約

大規模言語モデル (LLM) の最近の開発は、自然言語エージェントを開発するための強力な基盤を提供する一方で、自然言語モデルおよびその上に構築された自律エージェントに関する安全性の懸念を引き起こしています。
欺瞞は、特に懸念される AI エージェントの潜在的な能力の 1 つであり、誤解を招く、真実を隠す、または全体的または部分的に真実ではない信念を助長する行為または発言を指します。
私たちは、これまでの AI 安全性研究で見られたような、真っ向から嘘をつくこと、客観的に利己的な決定を下すこと、または虚偽の情報を与えることによる欺瞞についての従来の理解から遠ざかります。
私たちは、難読化とあいまいさによって達成される特定のカテゴリの欺瞞をターゲットにしています。
私たちは、この 2 つのタイプの欺瞞を、(i) ウサギが隠れた落とし戸から出てくる、または (ii) (私たちの焦点が) 聴衆の気を完全に逸らしている、帽子からウサギを出す手品に喩えて、大まかに説明します。
マジシャンが手品やミスディレクションを使ってウサギを目の前に連れ出す様子をご覧ください。
私たちの新しいテストベッド フレームワークは、法案の「ロビー活動」という立法任務に基づいて構築された 2 エージェントの敵対的対話システムで、自然言語生成において欺瞞的であるように指示された場合、目標主導型環境における LLM エージェントの本質的な欺瞞能力を示します。
目標主導型の環境に沿って、言語哲学と認知心理学の理論を中心に構築された強化学習セットアップを通じて欺瞞能力を開発することを示します。
ロビイスト エージェントは、その後の敵対的相互作用の強化トライアルを通じて、その欺瞞能力を最大 40% (相対) 増加させ、私たちの欺瞞検出メカニズムは最大 92% の検出能力を示していることがわかりました。
私たちの結果は、エージェントがプログラムされた最終目標に向かって人間を操作する可能性があるという、エージェントと人間の相互作用における潜在的な問題を浮き彫りにしています。

要約(オリジナル)

Recent developments in large language models (LLMs), while offering a powerful foundation for developing natural language agents, raise safety concerns about them and the autonomous agents built upon them. Deception is one potential capability of AI agents of particular concern, which we refer to as an act or statement that misleads, hides the truth, or promotes a belief that is not true in its entirety or in part. We move away from the conventional understanding of deception through straight-out lying, making objective selfish decisions, or giving false information, as seen in previous AI safety research. We target a specific category of deception achieved through obfuscation and equivocation. We broadly explain the two types of deception by analogizing them with the rabbit-out-of-hat magic trick, where (i) the rabbit either comes out of a hidden trap door or (ii) (our focus) the audience is completely distracted to see the magician bring out the rabbit right in front of them using sleight of hand or misdirection. Our novel testbed framework displays intrinsic deception capabilities of LLM agents in a goal-driven environment when directed to be deceptive in their natural language generations in a two-agent adversarial dialogue system built upon the legislative task of ‘lobbying’ for a bill. Along the lines of a goal-driven environment, we show developing deceptive capacity through a reinforcement learning setup, building it around the theories of language philosophy and cognitive psychology. We find that the lobbyist agent increases its deceptive capabilities by ~ 40% (relative) through subsequent reinforcement trials of adversarial interactions, and our deception detection mechanism shows a detection capability of up to 92%. Our results highlight potential issues in agent-human interaction, with agents potentially manipulating humans towards its programmed end-goal.

arxiv情報

著者 Atharvan Dogra,Ameet Deshpande,John Nay,Tanmay Rajpurohit,Ashwin Kalyan,Balaraman Ravindran
発行日 2024-05-07 13:55:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク