本稿では、長文テキスト生成における多様な事実情報のカバレッジを測定するための評価フレームワークである ICAT について説明します。
ICAT は、長い出力テキストをアトミックな主張のリストに分解し、(信頼できる) 知識ソースからの検索を通じて各主張を検証するだけでなく、アトミックな事実上の主張と出力で示されると予想されるさまざまな側面との間の整合性を計算します。
私たちは、ICAT フレームワークの 3 つの実装を研究します。それぞれの実装では、アスペクトの利用可能性と調整方法について異なる前提を持っています。
TREC Web Track および ClueWeb コーパスの多様化タスクからのデータを採用することにより、ICAT フレームワークを評価します。
当社は人間の判断との強い相関関係を実証し、複数の最先端の LLM にわたる包括的な評価を提供します。
そのモジュール設計により、さまざまなドメインやデータセットに簡単に適応できるため、LLM によって生成された長い形式の応答の定性的側面を評価するための貴重なツールになります。
This paper presents ICAT, an evaluation framework for measuring coverage of diverse factual information in long-form text generation. ICAT breaks down a long output text into a list of atomic claims and not only verifies each claim through retrieval from a (reliable) knowledge source, but also computes the alignment between the atomic factual claims and various aspects expected to be presented in the output. We study three implementations of the ICAT framework, each with a different assumption on the availability of aspects and alignment method. By adopting data from the diversification task in the TREC Web Track and the ClueWeb corpus, we evaluate the ICAT framework. We demonstrate strong correlation with human judgments and provide comprehensive evaluation across multiple state-of-the-art LLMs. Our framework further offers interpretable and fine-grained analysis of diversity and coverage. Its modular design allows for easy adaptation to different domains and datasets, making it a valuable tool for evaluating the qualitative aspects of long-form responses produced by LLMs.
著者 | Chris Samarinas,Alexander Krubner,Alireza Salemi,Youngwoo Kim,Hamed Zamani |
発行日 | 2025-01-17 17:47:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google