要約
ChatGPT のような最新の大規模言語モデル (LLM) は、一般的な言語タスクでは顕著なパフォーマンスを示していますが、複雑な推論タスクでは依然として苦戦しているため、人間のような問題解決戦略を探求する LLM の認知行動の研究が推進されています。
この方向に沿った代表的な戦略の 1 つは自己反省です。これは、LLM に、それ自体が繰り返し生成するフィードバックを使用してソリューションを改良するよう要求します。
しかし、私たちの研究は、そのようなリフレクションスタイルの手法は思考の退化(DoT)問題に悩まされることを示しています。つまり、LLMがその解決策に一度自信を確立すると、たとえ最初のスタンスがそうであったとしても、後でリフレクションを通じて新しい思考を生み出すことができなくなります。
正しくない。
DoT 問題に対処するために、我々はマルチエージェントディベート (MAD) フレームワークを提案します。このフレームワークでは、複数のエージェントが「しっぺ返し」の状態で自分の議論を表現し、裁判官が最終的な解決策を得るためにディベートプロセスを管理します。
明らかに、私たちの MAD フレームワークは LLM での発散的思考を奨励しており、深いレベルの熟考が必要なタスクに役立ちます。
常識的な機械翻訳と直感に反する算術推論という 2 つの困難なデータセットに関する実験結果は、MAD フレームワークの有効性を示しています。
広範な分析により、MAD が良好なパフォーマンスを得るには、議論の適応的中断と適度なレベルの「しっぺ返し」状態が必要であることが示唆されています。
さらに、エージェントに異なる LLM が使用されている場合、LLM が公正な判断にならない可能性があることがわかりました。
コードは https://github.com/Skytliang/Multi-Agents-Debate で入手できます。
要約(オリジナル)
Modern large language models (LLMs) like ChatGPT have shown remarkable performance on general language tasks but still struggle on complex reasoning tasks, which drives the research on cognitive behaviors of LLMs to explore human-like problem-solving strategies. Along this direction, one representative strategy is self-reflection, which asks an LLM to refine the solution with the feedback generated by itself iteratively. However, our study shows that such reflection-style methods suffer from the Degeneration-of-Thought (DoT) problem: once the LLM has established confidence in its solutions, it is unable to generate novel thoughts later through reflection even if its initial stance is incorrect. To address the DoT problem, we propose a Multi-Agent Debate (MAD) framework, in which multiple agents express their arguments in the state of ‘tit for tat’ and a judge manages the debate process to obtain a final solution. Clearly, our MAD framework encourages divergent thinking in LLMs which would be helpful for tasks that require deep levels of contemplation. Experiment results on two challenging datasets, commonsense machine translation and counter-intuitive arithmetic reasoning, demonstrate the effectiveness of our MAD framework. Extensive analyses suggest that the adaptive break of debate and the modest level of ‘tit for tat’ state are required for MAD to obtain good performance. Moreover, we find that LLMs might not be a fair judge if different LLMs are used for agents. Code is available at https://github.com/Skytliang/Multi-Agents-Debate.
arxiv情報
著者 | Tian Liang,Zhiwei He,Wenxiang Jiao,Xing Wang,Rui Wang,Yujiu Yang,Zhaopeng Tu,Shuming Shi |
発行日 | 2024-07-17 09:56:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google