Avalon’s Game of Thoughts: Battle Against Deception through Recursive Contemplation

要約

大規模言語モデル (LLM) における最近の進歩は、エージェントとしての LLM の分野で目覚ましい成功をもたらしました。
それにもかかわらず、LLM によって処理される情報は一貫して正直であり、人間社会に蔓延している欺瞞的または誤解を招く情報や AI によって生成されたコンテンツは無視されているという前提が一般的です。
この見落としにより、LLM は悪意のある操作を受けやすくなり、有害な結果を招く可能性があります。
この研究では、複雑な Avalon ゲームをテストベッドとして利用し、欺瞞的な環境における LLM の可能性を探ります。
アヴァロンは誤った情報に満ち、洗練されたロジックを必要とし、「思考のゲーム」として現れます。
Avalon ゲームにおける人間の再帰的思考と視点取得の有効性に着想を得て、欺瞞的な情報を特定して対抗する LLM の能力を強化するための新しいフレームワークである Recursive Contemplation (ReCon) を導入します。
ReCon は、定式化と改良の検討プロセスを組み合わせます。
定式化の熟考は最初の考えとスピーチを生み出しますが、洗練の熟考はそれらをさらに磨きます。
さらに、これらのプロセスにそれぞれ 1 次および 2 次の視点遷移を組み込みます。
具体的には、一次では LLM エージェントが他者の精神状態を推測できるようになり、二次では他者がエージェントの精神状態をどのように認識するかを理解することが含まれます。
ReCon をさまざまな LLM と統合した後、Avalon ゲームでの広範な実験結果は、余分な微調整やデータを必要とせずに、LLM が欺瞞的な情報を識別して回避するのに役立つことを示しています。
最後に、ReCon の有効性について考えられる説明を提供し、安全性、推論、話し方、形式の観点から LLM の現在の限界を調査し、その後の研究に洞察をもたらす可能性があります。

要約(オリジナル)

Recent breakthroughs in large language models (LLMs) have brought remarkable success in the field of LLM-as-Agent. Nevertheless, a prevalent assumption is that the information processed by LLMs is consistently honest, neglecting the pervasive deceptive or misleading information in human society and AI-generated content. This oversight makes LLMs susceptible to malicious manipulations, potentially resulting in detrimental outcomes. This study utilizes the intricate Avalon game as a testbed to explore LLMs’ potential in deceptive environments. Avalon, full of misinformation and requiring sophisticated logic, manifests as a ‘Game-of-Thoughts’. Inspired by the efficacy of humans’ recursive thinking and perspective-taking in the Avalon game, we introduce a novel framework, Recursive Contemplation (ReCon), to enhance LLMs’ ability to identify and counteract deceptive information. ReCon combines formulation and refinement contemplation processes; formulation contemplation produces initial thoughts and speech, while refinement contemplation further polishes them. Additionally, we incorporate first-order and second-order perspective transitions into these processes respectively. Specifically, the first-order allows an LLM agent to infer others’ mental states, and the second-order involves understanding how others perceive the agent’s mental state. After integrating ReCon with different LLMs, extensive experiment results from the Avalon game indicate its efficacy in aiding LLMs to discern and maneuver around deceptive information without extra fine-tuning and data. Finally, we offer a possible explanation for the efficacy of ReCon and explore the current limitations of LLMs in terms of safety, reasoning, speaking style, and format, potentially furnishing insights for subsequent research.

arxiv情報

著者 Shenzhi Wang,Chang Liu,Zilong Zheng,Siyuan Qi,Shuo Chen,Qisen Yang,Andrew Zhao,Chaofei Wang,Shiji Song,Gao Huang
発行日 2023-10-06 05:31:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG, cs.MA パーマリンク