ConQRet: Benchmarking Fine-Grained Evaluation of Retrieval Augmented Argumentation with LLM Judges

要約

中絶禁止やワクチン接種など物議を醸すトピックに対する答えや要約を生成する計算論的議論は、今日の二極化した環境においてますます重要になっています。
高度な LLM 機能は、現実世界の証拠を活用して高品質で根拠のある議論を実現する検索拡張議論 (RAArg) を通じて、そのような質問に対して微妙な証拠に基づいた回答を提供する可能性を提供します。
ただし、人による評価はコストがかかり、複雑なトピックに関する複雑で長い回答を得るのが難しいため、RAArg の評価は依然として困難です。
同時に、既存の議論データセットを再利用するだけではもはや十分ではありません。これらのデータセットには、誤解を招く可能性のある情報源からの長く複雑な議論や現実的な証拠が欠けており、検索の有効性と議論の質の全体的な評価が制限されているからです。
これらのギャップに対処するために、私たちは複数のきめ細かい LLM 審査員を使用した自動評価方法を調査し、従来の単一スコアの指標や、以前に報告された人間のクラウドソーシングよりも優れた、より解釈可能な評価を提供します。
提案された手法を検証するために、現実世界の Web サイトに基づいた、議論されているトピックに関する人間が作成した長く複雑な議論を特徴とする新しいベンチマークである ConQRet を導入します。これにより、検索の有効性、議論の質、根拠性全体にわたる徹底的な評価が可能になります。
以前のデータセットと新しい ConQRet ベンチマークに基づいて LLM ジャッジを検証します。
私たちが提案する LLM ジャッジと ConQRet ベンチマークは、計算論証の急速な進歩を可能にし、他の複雑な検索拡張生成タスクにも自然に拡張できます。

要約(オリジナル)

Computational argumentation, which involves generating answers or summaries for controversial topics like abortion bans and vaccination, has become increasingly important in today’s polarized environment. Sophisticated LLM capabilities offer the potential to provide nuanced, evidence-based answers to such questions through Retrieval-Augmented Argumentation (RAArg), leveraging real-world evidence for high-quality, grounded arguments. However, evaluating RAArg remains challenging, as human evaluation is costly and difficult for complex, lengthy answers on complicated topics. At the same time, re-using existing argumentation datasets is no longer sufficient, as they lack long, complex arguments and realistic evidence from potentially misleading sources, limiting holistic evaluation of retrieval effectiveness and argument quality. To address these gaps, we investigate automated evaluation methods using multiple fine-grained LLM judges, providing better and more interpretable assessments than traditional single-score metrics and even previously reported human crowdsourcing. To validate the proposed techniques, we introduce ConQRet, a new benchmark featuring long and complex human-authored arguments on debated topics, grounded in real-world websites, allowing an exhaustive evaluation across retrieval effectiveness, argument quality, and groundedness. We validate our LLM Judges on a prior dataset and the new ConQRet benchmark. Our proposed LLM Judges and the ConQRet benchmark can enable rapid progress in computational argumentation and can be naturally extended to other complex retrieval-augmented generation tasks.

arxiv情報

著者 Kaustubh D. Dhole,Kai Shu,Eugene Agichtein
発行日 2024-12-06 17:35:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, I.2.7 パーマリンク