Towards Reasoning in Large Language Models via Multi-Agent Peer Review Collaboration

要約

大規模言語モデル (LLM) は、一般的な自然言語処理タスクでは顕著な能力を示していますが、複雑な推論タスクでは不十分なことがよくあります。
最近の研究では、単一モデルの推論能力の限界をさらに押し上げるために、自己修正などの人間に似た問題解決戦略が探求されています。
この研究では、複数のモデルを連携させて相互に修正することで、単一のモデルを「枠の外に出す」ことができます。
学術的な査読プロセスをエミュレートするマルチエージェントのコラボレーション戦略を導入します。
各エージェントは独立して独自のソリューションを構築し、他のエージェントのソリューションに関するレビューを提供し、そのレビューに信頼レベルを割り当てます。
ピアレビューを受け取ると、エージェントは最初のソリューションを修正します。
3 つの異なるタイプの推論タスクに関する広範な実験により、当社のコラボレーション アプローチが、既存の方法と比較して 10 個のデータセットすべてにわたって優れた精度を実現できることがわかりました。
さらなる研究により、レビューに信頼性を統合することの有効性が強調され、単なるソリューションの共有よりもフィードバック交換の優位性が実証され、成功したコラボレーションを促進する上での能力と多様性の役割が強調されています。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable capabilities in general natural language processing tasks but often fall short in complex reasoning tasks. Recent studies have explored human-like problem-solving strategies, such as self-correct, to push further the boundary of single-model reasoning ability. In this work, we let a single model ‘step outside the box’ by engaging multiple models to correct each other. We introduce a multi-agent collaboration strategy that emulates the academic peer review process. Each agent independently constructs its own solution, provides reviews on the solutions of others, and assigns confidence levels to its reviews. Upon receiving peer reviews, agents revise their initial solutions. Extensive experiments on three different types of reasoning tasks show that our collaboration approach delivers superior accuracy across all ten datasets compared to existing methods. Further study underscores the effectiveness of integrating confidence in reviews, demonstrates the superiority of feedback exchange over mere solution sharing, and highlights the role of capability and diversity in fostering successful collaboration.

arxiv情報

著者 Zhenran Xu,Senbao Shi,Baotian Hu,Jindi Yu,Dongfang Li,Min Zhang,Yuxiang Wu
発行日 2023-12-17 13:02:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク