The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models

要約

大規模な言語モデル(LLMS)は、特に検索された生成(RAG)で、情報アクセスシステムの機能を大幅に強化しました。
それにもかかわらず、RAGシステムの評価は、継続的な進歩に対する障壁のままです。これは、人間の注釈に対して検証された自動評価フレームワークを提案することにより、この作業で取り組む課題です。
ナゲット評価方法は、RAGシステムを評価するための強固な基盤を提供すると考えています。
2003年にTREC質問応答(QA)トラック用に開発されたこのアプローチは、良好な答えに存在する原子の事実に基づいたシステムを評価します。
私たちの取り組みは、この方法論を「リファクタリング」することに焦点を当てています。この方法では、LLMを特別に適用する自動装置のフレームワークを自動的に作成し、ナゲットをシステムの回答に自動的に割り当てることに焦点を当てています。
TREC 2024 RAGトラックのコンテキストでは、ナゲットが人間の評価者によって手動または半人によって作成され、システムの回答に手動で割り当てられる戦略に対して完全に自動的なアプローチを較正します。
コミュニティ全体の評価の結果に基づいて、完全に自動ナゲット評価と人間ベースのバリアントから導き出されたスコア間の実行レベルで強力な一致を観察します。
Nuggetの割り当てなどの個々のフレームワークコンポーネントが独立して自動化されると、契約はより強くなります。
これは、当社の評価フレームワークが、将来のRAGシステムの開発を導くために使用できる努力と品質のトレードオフを提供することを示唆しています。
ただし、特にシステムの障害を効果的に診断するための堅牢なトピックごとの合意を確立する際には、アプローチを改善するにはさらなる研究が必要です。

要約(オリジナル)

Large Language Models (LLMs) have significantly enhanced the capabilities of information access systems, especially with retrieval-augmented generation (RAG). Nevertheless, the evaluation of RAG systems remains a barrier to continued progress, a challenge we tackle in this work by proposing an automatic evaluation framework that is validated against human annotations. We believe that the nugget evaluation methodology provides a solid foundation for evaluating RAG systems. This approach, originally developed for the TREC Question Answering (QA) Track in 2003, evaluates systems based on atomic facts that should be present in good answers. Our efforts focus on ‘refactoring’ this methodology, where we describe the AutoNuggetizer framework that specifically applies LLMs to both automatically create nuggets and automatically assign nuggets to system answers. In the context of the TREC 2024 RAG Track, we calibrate a fully automatic approach against strategies where nuggets are created manually or semi-manually by human assessors and then assigned manually to system answers. Based on results from a community-wide evaluation, we observe strong agreement at the run level between scores derived from fully automatic nugget evaluation and human-based variants. The agreement is stronger when individual framework components such as nugget assignment are automated independently. This suggests that our evaluation framework provides tradeoffs between effort and quality that can be used to guide the development of future RAG systems. However, further research is necessary to refine our approach, particularly in establishing robust per-topic agreement to diagnose system failures effectively.

arxiv情報

著者 Ronak Pradeep,Nandan Thakur,Shivani Upadhyay,Daniel Campos,Nick Craswell,Jimmy Lin
発行日 2025-04-21 12:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク