DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models

要約

大規模言語モデル(LLM)によって生成されたテキストの品質とばらつきを評価することは、重要でありながら未解決の研究課題である。トークンの類似度を測定するROUGEやBERTScoreのような従来の評価手法は、しばしば全体的な意味的等価性を捉えることができない。この結果、人間の判断や直感との相関が低くなり、信頼性、安全性、ロバストな意思決定が非常に重要なヘルスケアや金融のような利害の大きいアプリケーションでは特に問題となる。本研究では、LLMで生成されたテキストの整合性を評価し、改善するための自動化フレームワークであるDCRを提案する。段落レベルで動作する既存のLLMベースの評価器とは異なり、本手法は、生成された2つの回答間の段落間比較を個々の文と段落の比較に分解し、それぞれが事前に定義された基準に基づいて評価される分割統治評価器(DCE)を採用している。このアプローチを容易にするために、DCEからの出力を解釈可能な数値スコアに変換する自動メトリックコンバータ(AMC)を導入する。さらに、整合性評価だけでなく、DCEによって特定された分析的理由と説明を活用し、これらの矛盾を減らすことを目的とした新しい回答を生成する理由支援改善プログラム(RAI)を紹介する。包括的かつ体系的な実証分析により、意味、事実、要約の一貫性タスクの複数のベンチマークにおけるLLM生成の一貫性評価において、我々のアプローチが最先端の手法を大きく上回る(例えば、SummEvalデータセットにおいて+19.3%、+24.3%)ことを示す。また、我々のアプローチは、出力の矛盾の90%近くを大幅に削減し、効果的な幻覚軽減の可能性を示している。

要約(オリジナル)

Evaluating the quality and variability of text generated by Large Language Models (LLMs) poses a significant, yet unresolved research challenge. Traditional evaluation methods, such as ROUGE and BERTScore, which measure token similarity, often fail to capture the holistic semantic equivalence. This results in a low correlation with human judgments and intuition, which is especially problematic in high-stakes applications like healthcare and finance where reliability, safety, and robust decision-making are highly critical. This work proposes DCR, an automated framework for evaluating and improving the consistency of LLM-generated texts using a divide-conquer-reasoning approach. Unlike existing LLM-based evaluators that operate at the paragraph level, our method employs a divide-and-conquer evaluator (DCE) that breaks down the paragraph-to-paragraph comparison between two generated responses into individual sentence-to-paragraph comparisons, each evaluated based on predefined criteria. To facilitate this approach, we introduce an automatic metric converter (AMC) that translates the output from DCE into an interpretable numeric score. Beyond the consistency evaluation, we further present a reason-assisted improver (RAI) that leverages the analytical reasons with explanations identified by DCE to generate new responses aimed at reducing these inconsistencies. Through comprehensive and systematic empirical analysis, we show that our approach outperforms state-of-the-art methods by a large margin (e.g., +19.3% and +24.3% on the SummEval dataset) in evaluating the consistency of LLM generation across multiple benchmarks in semantic, factual, and summarization consistency tasks. Our approach also substantially reduces nearly 90% of output inconsistencies, showing promise for effective hallucination mitigation.

arxiv情報

著者 Wendi Cui,Jiaxin Zhang,Zhuohang Li,Lopez Damien,Kamalika Das,Bradley Malin,Sricharan Kumar
発行日 2024-01-04 08:34:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク