DEBATE: Devil’s Advocate-Based Assessment and Text Evaluation

要約

自然言語生成 (NLG) モデルが普及するにつれて、機械生成されたテキストの品質を体系的に評価することがますます重要になっています。
最近の研究では、参照不要のメトリクスとして動作する LLM ベースの評価器が導入され、新しいタスクを適切に処理する機能が実証されています。
ただし、これらのモデルは通常、単一エージェントのアプローチに依存しており、これによりパフォーマンスに固有の制限が生じると私たちは主張します。
これは、特定のテキスト構造やコンテンツに対する好みなど、LLM エージェントの応答にバイアスが存在するためです。
この研究では、Devil’s Advocate の概念を強化したマルチエージェント スコアリング システムに基づく NLG 評価フレームワークである DEBATE を提案します。
このフレームワーク内で、あるエージェントは他のエージェントの議論を批判するように指示され、LLM エージェントの回答の偏りを解決できる可能性があります。
DEBATE は、NLG 評価における 2 つのメタ評価ベンチマーク、SummEval と TopicalChat において、以前の最先端の手法を大幅に上回っています。
また、エージェント間の議論の広がりやエージェントのペルソナが評価者のパフォーマンスに影響を与える可能性があることも示します。

要約(オリジナル)

As natural language generation (NLG) models have become prevalent, systematically assessing the quality of machine-generated texts has become increasingly important. Recent studies introduce LLM-based evaluators that operate as reference-free metrics, demonstrating their capability to adeptly handle novel tasks. However, these models generally rely on a single-agent approach, which, we argue, introduces an inherent limit to their performance. This is because there exist biases in LLM agent’s responses, including preferences for certain text structure or content. In this work, we propose DEBATE, an NLG evaluation framework based on multi-agent scoring system augmented with a concept of Devil’s Advocate. Within the framework, one agent is instructed to criticize other agents’ arguments, potentially resolving the bias in LLM agent’s answers. DEBATE substantially outperforms the previous state-of-the-art methods in two meta-evaluation benchmarks in NLG evaluation, SummEval and TopicalChat. We also show that the extensiveness of debates among agents and the persona of an agent can influence the performance of evaluators.

arxiv情報

著者 Alex Kim,Keonwoo Kim,Sangwon Yoon
発行日 2024-05-16 09:41:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク