要約
LLMは、テキスト生成において驚くべき流暢さと一貫性を達成したが、その広範な採用により、コンテンツの信頼性と説明責任に関する懸念が提起されている。ヘルスケア、法律、ニュースなどの重要な領域では、コンテンツがどこでどのように作成されたかを理解することが極めて重要である。この課題に対処するため、我々はText pROVEnance (TROVE)課題を導入する。TROVE課題は、長文や複数文書の入力の可能性がある中で、ターゲットテキストの各文を特定のソース文まで遡るように設計されている。TROVEはソースを特定するだけでなく、きめ細かな関係(引用、圧縮、推論、その他)を注釈し、各ターゲットセンテンスがどのように形成されるかを深く理解する。TROVEのベンチマークとして、英語と中国語の11の多様なシナリオ(QAや要約など)をカバーする3つの公開データセットを活用し、様々な長さ(0~5k、5~10k、10k以上)の原文にまたがるデータセットを構築する。高品質なデータを確保するため、3段階のアノテーションプロセス(文検索、GPTプロボナンス、人間のプロボナンス)を採用している。また、クローズドソースモデルがリードすることが多いが、オープンソースモデルは特に検索機能拡張により大きな可能性を示している。
要約(オリジナル)
LLMs have achieved remarkable fluency and coherence in text generation, yet their widespread adoption has raised concerns about content reliability and accountability. In high-stakes domains such as healthcare, law, and news, it is crucial to understand where and how the content is created. To address this, we introduce the Text pROVEnance (TROVE) challenge, designed to trace each sentence of a target text back to specific source sentences within potentially lengthy or multi-document inputs. Beyond identifying sources, TROVE annotates the fine-grained relationships (quotation, compression, inference, and others), providing a deep understanding of how each target sentence is formed. To benchmark TROVE, we construct our dataset by leveraging three public datasets covering 11 diverse scenarios (e.g., QA and summarization) in English and Chinese, spanning source texts of varying lengths (0-5k, 5-10k, 10k+), emphasizing the multi-document and long-document settings essential for provenance. To ensure high-quality data, we employ a three-stage annotation process: sentence retrieval, GPT provenance, and human provenance. We evaluate 11 LLMs under direct prompting and retrieval-augmented paradigms, revealing that retrieval is essential for robust performance, larger models perform better in complex relationship classification, and closed-source models often lead, yet open-source models show significant promise, particularly with retrieval augmentation.
arxiv情報
| 著者 | Junnan Zhu,Min Xiao,Yining Wang,Feifei Zhai,Yu Zhou,Chengqing Zong |
| 発行日 | 2025-04-03 09:56:04+00:00 |
| arxivサイト | arxiv_id(pdf) |