AXCEL: Automated eXplainable Consistency Evaluation using LLMs

要約

大規模言語モデル (LLM) は、産業界と学術界の両方でさまざまなタスクに広く使用されていますが、生成されたテキスト応答の一貫性を評価することは依然として課題です。
ROUGE や BLEU などの従来の指標は、人間の判断と弱い相関関係を示しています。
自然言語推論 (NLI) を使用したより洗練されたメトリクスは相関関係の改善を示していますが、実装が複雑で、クロスドメインの一般化が不十分なためドメイン固有のトレーニングが必要であり、説明可能性が欠けています。
最近では、LLM を評価者として使用するプロンプトベースのメトリクスが登場しました。
これらは実装が容易ではありますが、依然として説明性に欠けており、タスク固有のプロンプトに依存しているため、汎用性が制限されています。
この作業では、LLM を使用した Automated eXplainable Consistency Evaluation (AXCEL) が導入されています。これは、詳細な推論を提供し、一貫性のないテキスト スパンを特定することで、一貫性スコアの説明を提供するプロンプトベースの一貫性メトリックです。
AXCEL は、プロンプトを変更せずに複数のタスクに採用できる一般化可能なメトリクスでもあります。
AXCEL は、要約全体にわたる不一致の検出において 8.7%、フリー テキスト生成で 6.2%、データからテキストへの変換タスクで 29.4% の検出において、非プロンプトおよびプロンプトベースの最先端 (SOTA) メトリクスの両方を上回っています。
また、基礎となる LLM がプロンプトベースのメトリクスのパフォーマンスに及ぼす影響を評価し、公正な比較のために最新の LLM を使用して SOTA プロンプトベースのメトリクスを再調整します。
さらに、AXCEL がオープンソース LLM を使用して優れたパフォーマンスを発揮することを示します。

要約(オリジナル)

Large Language Models (LLMs) are widely used in both industry and academia for various tasks, yet evaluating the consistency of generated text responses continues to be a challenge. Traditional metrics like ROUGE and BLEU show a weak correlation with human judgment. More sophisticated metrics using Natural Language Inference (NLI) have shown improved correlations but are complex to implement, require domain-specific training due to poor cross-domain generalization, and lack explainability. More recently, prompt-based metrics using LLMs as evaluators have emerged; while they are easier to implement, they still lack explainability and depend on task-specific prompts, which limits their generalizability. This work introduces Automated eXplainable Consistency Evaluation using LLMs (AXCEL), a prompt-based consistency metric which offers explanations for the consistency scores by providing detailed reasoning and pinpointing inconsistent text spans. AXCEL is also a generalizable metric which can be adopted to multiple tasks without changing the prompt. AXCEL outperforms both non-prompt and prompt-based state-of-the-art (SOTA) metrics in detecting inconsistencies across summarization by 8.7%, free text generation by 6.2%, and data-to-text conversion tasks by 29.4%. We also evaluate the influence of underlying LLMs on prompt based metric performance and recalibrate the SOTA prompt-based metrics with the latest LLMs for fair comparison. Further, we show that AXCEL demonstrates strong performance using open source LLMs.

arxiv情報

著者 P Aditya Sreekar,Sahil Verma,Suransh Chopra,Sarik Ghazarian,Abhishek Persad,Narayanan Sadagopan
発行日 2024-09-25 14:45:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク