ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate

要約

テキストの評価はこれまで、多大な労力と時間のコストを必要とする重大な課題を抱えてきました。
大規模言語モデル (LLM) の出現により、研究者は人間による評価の代替手段としての LLM の可能性を探求してきました。
これらの単一薬剤ベースのアプローチは有望である一方で、実験結果は、現在の有効性と人間レベルの評価品質との間のギャップを埋めるにはさらなる進歩が必要であることを示唆しています。
人間による評価プロセスのベスト プラクティスには、評価に複数のヒューマン アノテーターが協力することが多いことを認識し、単一エージェントによるプロンプト戦略を超えて、マルチエージェントのディベート フレームワークに頼っています。
マルチエージェントベースのアプローチにより、LLM のグループが多数のインテリジェントな対応者と相乗効果を発揮し、その独特の機能と専門知識を活用して、複雑なタスクの処理における効率と有効性を高めることができます。
この論文では、ChatEval と呼ばれるマルチエージェントの審判チームを構築し、自由形式の質問や従来の自然言語生成 (NLG) タスクに関して、さまざまなモデルから生成された応答の品質を自律的に議論し、評価します。
私たちの分析によると、ChatEval は単なるテキストによるスコアリングを超え、人間を模倣した評価プロセスを提供して信頼性の高い評価を実現します。
私たちのコードは https://github.com/chanchimin/ChatEval で入手できます。

要約(オリジナル)

Text evaluation has historically posed significant challenges, often demanding substantial labor and time cost. With the emergence of large language models (LLMs), researchers have explored LLMs’ potential as alternatives for human evaluation. While these single-agent-based approaches show promise, experimental results suggest that further advancements are needed to bridge the gap between their current effectiveness and human-level evaluation quality. Recognizing that best practices of human evaluation processes often involve multiple human annotators collaborating in the evaluation, we resort to a multi-agent debate framework, moving beyond single-agent prompting strategies. The multi-agent-based approach enables a group of LLMs to synergize with an array of intelligent counterparts, harnessing their distinct capabilities and expertise to enhance efficiency and effectiveness in handling intricate tasks. In this paper, we construct a multi-agent referee team called ChatEval to autonomously discuss and evaluate the quality of generated responses from different models on open-ended questions and traditional natural language generation (NLG) tasks. Our analysis shows that ChatEval transcends mere textual scoring, offering a human-mimicking evaluation process for reliable assessments. Our code is available at https://github.com/chanchimin/ChatEval.

arxiv情報

著者 Chi-Min Chan,Weize Chen,Yusheng Su,Jianxuan Yu,Wei Xue,Shanghang Zhang,Jie Fu,Zhiyuan Liu
発行日 2023-08-14 15:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク