Enhance Reasoning for Large Language Models in the Game Werewolf

要約

このペーパーでは、大規模言語モデル (LLM) と外部の Thinker モジュールを統合して、LLM ベースのエージェントの推論機能を強化する革新的なフレームワークを紹介します。
プロンプト エンジニアリングによる LLM の強化とは異なり、Thinker はデータベースからの知識を直接活用し、さまざまな最適化手法を採用します。
このフレームワークは推論階層を形成し、LLM は自然言語処理などの直観的な System-1 タスクを処理しますが、Thinker は複雑な論理分析とドメイン固有の知識を必要とする認知的な System-2 タスクに焦点を当てます。
私たちのフレームワークは、デュアルシステム推論を必要とする 9 人プレイヤーの人狼ゲームを使用して提示されます。
LLM と Thinker の間に通信プロトコルを導入し、18,800 人の人間によるセッションと強化学習からのデータを使用して Thinker をトレーニングします。
実験では、演繹推論、音声生成、オンライン ゲーム評価におけるフレームワークの有効性が実証されています。
さらに、Thinker と統合したときに GPT4 を超えるように 6B LLM を微調整しました。
この論文は、これまでの社会推理ゲームの最大のデータセットにも貢献しています。

要約(オリジナル)

This paper presents an innovative framework that integrates Large Language Models (LLMs) with an external Thinker module to enhance the reasoning capabilities of LLM-based agents. Unlike augmenting LLMs with prompt engineering, Thinker directly harnesses knowledge from databases and employs various optimization techniques. The framework forms a reasoning hierarchy where LLMs handle intuitive System-1 tasks such as natural language processing, while the Thinker focuses on cognitive System-2 tasks that require complex logical analysis and domain-specific knowledge. Our framework is presented using a 9-player Werewolf game that demands dual-system reasoning. We introduce a communication protocol between LLMs and the Thinker, and train the Thinker using data from 18800 human sessions and reinforcement learning. Experiments demonstrate the framework’s effectiveness in deductive reasoning, speech generation, and online game evaluation. Additionally, we fine-tune a 6B LLM to surpass GPT4 when integrated with the Thinker. This paper also contributes the largest dataset for social deduction games to date.

arxiv情報

著者 Shuang Wu,Liwen Zhu,Tao Yang,Shiwei Xu,Qiang Fu,Yang Wei,Haobo Fu
発行日 2024-03-29 09:01:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク