要約
大規模言語モデル (LLM) は、さまざまな言語ベースのタスクの汎用ツールとして機能する優れた能力を実証しています。
最近の研究では、このようなモデルの有効性が、マルチエージェント ディベート (MAD) と呼ばれることが多い、複数のモデル間の対話を繰り返すことによって改善できることが実証されています。
ディベートはモデルの有効性を向上させる手段として期待されていますが、この分野のほとんどの研究では、ディベートを学習された行動ではなく、創発的な行動として扱っています。
その際、現在の議論の枠組みは、既製のモデルに十分に訓練された協力的な行動に依存しています。
この制限に対処するために、私たちはディベートに特化した 2 エージェント チームを生成するアクターと批評家ベースの学習フレームワークである ACC-Debate を提案します。
我々は、ACC-Debate がさまざまなベンチマークにおいて SotA ディベート手法よりも優れていることを実証します。
要約(オリジナル)
Large language models (LLMs) have demonstrated a remarkable ability to serve as general-purpose tools for various language-based tasks. Recent works have demonstrated that the efficacy of such models can be improved through iterative dialog between multiple models, frequently referred to as multi-agent debate (MAD). While debate shows promise as a means of improving model efficacy, most works in this area treat debate as an emergent behavior, rather than a learned behavior. In doing so, current debate frameworks rely on collaborative behaviors to have been sufficiently trained into off-the-shelf models. To address this limitation, we propose ACC-Debate, an Actor-Critic based learning framework to produce a two-agent team specialized in debate. We demonstrate that ACC-Debate outperforms SotA debate techniques on a wide array of benchmarks.
arxiv情報
著者 | Andrew Estornell,Jean-Francois Ton,Yuanshun Yao,Yang Liu |
発行日 | 2024-11-04 15:20:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google