ALiiCE: Evaluating Positional Fine-grained Citation Generation

要約

大規模言語モデル (LLM) は、引用を含むテキストを生成することで、信頼性と検証可能性を高めることができます。
しかし、既存のタスクと評価方法は主に文レベルの記述に限定されており、文内のどこにでも現れる可能性のある位置の細かい引用の重要性が無視されています。
きめ細かい引用生成のさらなる探索を促進するために、このタスクのための最初の自動評価フレームワークである ALiiCE を提案します。
私たちのフレームワークは、まず依存関係分析によって文のクレームを基本的なクレームに解析し、次に基本的なクレーム レベルで引用の質を計算します。
ALiiCE は、位置の詳細な引用の再現率と精度、引用位置の変動係数を含む、位置の詳細な引用品質評価のための 3 つの新しい指標を導入します。
2 つの長い形式の QA データセット上で、いくつかの LLM の位置の詳細な引用生成パフォーマンスを評価します。
私たちの実験と分析は、ALiiCE の有効性と合理性を実証しています。
この結果はまた、既存の LLM が位置の細かい引用を提供するのに依然として苦労していることも示しています。

要約(オリジナル)

Large Language Models (LLMs) can enhance the credibility and verifiability by generating text with citations. However, existing tasks and evaluation methods are predominantly limited to sentence-level statement, neglecting the significance of positional fine-grained citations that can appear anywhere within sentences. To facilitate further exploration of the fine-grained citation generation, we propose ALiiCE, the first automatic evaluation framework for this task. Our framework first parses the sentence claim into atomic claims via dependency analysis and then calculates citation quality at the atomic claim level. ALiiCE introduces three novel metrics for positional fined-grained citation quality assessment, including positional fine-grained citation recall and precision, and coefficient of variation of citation positions. We evaluate the positional fine-grained citation generation performance of several LLMs on two long-form QA datasets. Our experiments and analyses demonstrate the effectiveness and reasonableness of ALiiCE. The results also indicate that existing LLMs still struggle to provide positional fine-grained citations.

arxiv情報

著者 Yilong Xu,Jinhua Gao,Xiaoming Yu,Baolong Bi,Huawei Shen,Xueqi Cheng
発行日 2024-09-10 08:08:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク