LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

要約

現在のロングコンテキスト大規模言語モデル (LLM) は、広範なテキストに基づいてユーザーの質問に回答する優れた能力を実証していますが、回答に引用が欠如しているため、ユーザーの検証が困難になり、幻覚の可能性により信頼性が懸念されます。
この研究では、長いコンテキストの LLM がきめ細かい文レベルの引用を含む応答を生成できるようにし、その忠実性と検証可能性を向上させることを目指しています。
最初に、Long-Context Question Answering with Citations (LQAC) における現在の LLM のパフォーマンスを評価するための自動ベンチマークである LongBench-Cite を紹介し、かなりの改善の余地があることを明らかにします。
この目的を達成するために、私たちは既製の LLM を利用して正確な文レベルの引用を含む長いコンテキストの QA インスタンスを自動的に生成する新しいパイプラインである CoF (Coarse to Fine) を提案します。また、このパイプラインを活用して LongCite-45k を構築します。
LQAC 用の大規模 SFT データセット。
最後に、LongCite-45k データセットを使用して LongCite-8B と LongCite-9B をトレーニングし、単一の出力で正確な応答ときめ細かい文レベルの引用を生成できるようにしました。
LongBench-Cite での評価結果は、トレーニングされたモデルが GPT-4o を含む高度な独自モデルを上回る、最先端の引用品質を達成していることを示しています。

要約(オリジナル)

Though current long-context large language models (LLMs) have demonstrated impressive capacities in answering user questions based on extensive text, the lack of citations in their responses makes user verification difficult, leading to concerns about their trustworthiness due to their potential hallucinations. In this work, we aim to enable long-context LLMs to generate responses with fine-grained sentence-level citations, improving their faithfulness and verifiability. We first introduce LongBench-Cite, an automated benchmark for assessing current LLMs’ performance in Long-Context Question Answering with Citations (LQAC), revealing considerable room for improvement. To this end, we propose CoF (Coarse to Fine), a novel pipeline that utilizes off-the-shelf LLMs to automatically generate long-context QA instances with precise sentence-level citations, and leverage this pipeline to construct LongCite-45k, a large-scale SFT dataset for LQAC. Finally, we train LongCite-8B and LongCite-9B using the LongCite-45k dataset, successfully enabling their generation of accurate responses and fine-grained sentence-level citations in a single output. The evaluation results on LongBench-Cite show that our trained models achieve state-of-the-art citation quality, surpassing advanced proprietary models including GPT-4o.

arxiv情報

著者 Jiajie Zhang,Yushi Bai,Xin Lv,Wanjun Gu,Danqing Liu,Minhao Zou,Shulin Cao,Lei Hou,Yuxiao Dong,Ling Feng,Juanzi Li
発行日 2024-09-10 07:43:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク