TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification

要約

LLMはテキスト生成の驚くべき流encyさと一貫性を達成しましたが、彼らの広範な採用は、コンテンツの信頼性と説明責任についての懸念を引き起こしました。
ヘルスケア、法律、ニュースなどのハイステークスドメインでは、コンテンツがどこでどのように作成されるかを理解することが重要です。
これに対処するために、ターゲットテキストの各文を潜在的に長いまたはマルチドキュメント入力内の特定のソース文に戻すように設計されたテキストプロベナンス(TROVE)チャレンジを紹介します。
ソースを特定するだけでなく、Troveはきめ細かい関係(引用、圧縮、推論など)に注釈を付け、各ターゲット文がどのように形成されるかを深く理解します。
Troveをベンチマークするために、英語と中国語の11の多様なシナリオ(QAや要約)をカバーする3つのパブリックデータセットを活用して、さまざまな長さのソーステキスト(0-5K、5-10K、10K+)にまたがるデータセットを構築し、実証に不可欠なマルチドキュメントと長期の設定を強調します。
高品質のデータを確保するために、3段階の注釈プロセス、文の検索、GPTの出所、および人間の出所を採用しています。
直接のプロンプトと検索のパラダイムの下で11のLLMを評価し、検索が堅牢なパフォーマンスに不可欠であることを明らかにし、より大きなモデルは複雑な関係分類でパフォーマンスを向上させ、閉鎖モデルはしばしばリードしますが、特に検索の増強により、オープンソースモデルは大きな約束を示します。

要約(オリジナル)

LLMs have achieved remarkable fluency and coherence in text generation, yet their widespread adoption has raised concerns about content reliability and accountability. In high-stakes domains such as healthcare, law, and news, it is crucial to understand where and how the content is created. To address this, we introduce the Text pROVEnance (TROVE) challenge, designed to trace each sentence of a target text back to specific source sentences within potentially lengthy or multi-document inputs. Beyond identifying sources, TROVE annotates the fine-grained relationships (quotation, compression, inference, and others), providing a deep understanding of how each target sentence is formed. To benchmark TROVE, we construct our dataset by leveraging three public datasets covering 11 diverse scenarios (e.g., QA and summarization) in English and Chinese, spanning source texts of varying lengths (0-5k, 5-10k, 10k+), emphasizing the multi-document and long-document settings essential for provenance. To ensure high-quality data, we employ a three-stage annotation process: sentence retrieval, GPT provenance, and human provenance. We evaluate 11 LLMs under direct prompting and retrieval-augmented paradigms, revealing that retrieval is essential for robust performance, larger models perform better in complex relationship classification, and closed-source models often lead, yet open-source models show significant promise, particularly with retrieval augmentation.

arxiv情報

著者 Junnan Zhu,Min Xiao,Yining Wang,Feifei Zhai,Yu Zhou,Chengqing Zong
発行日 2025-03-19 15:09:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク