Source-Aware Training Enables Knowledge Attribution in Language Models

要約

大規模言語モデル (LLM) は、事前トレーニング中に膨大な量の知識を学習しますが、多くの場合、そのような知識のソースを認識していません。
私たちは、LLM が生成された応答をサポートする事前トレーニング ソースを引用する必要がある、固有のソース引用の問題を調査します。
固有の情報源引用により、LLM の透明性、解釈可能性、検証可能性が向上します。
LLM にそのような能力を与えるために、私たちはソース認識トレーニングを検討します。これは、(i) 一意のソース文書識別子を各文書内の知識に関連付けるように LLM をトレーニングし、続いて (ii) 教えるための命令チューニングを含む、トレーニング後のレシピです。
LLM は、プロンプトが表示されたら、サポートする事前トレーニング ソースを引用します。
ソース認識トレーニングは、既製の事前トレーニング済み LLM に簡単に適用でき、既存の事前トレーニング/微調整フレームワークからの分岐は最小限に抑えられます。
慎重に厳選されたデータの実験を通じて、私たちのトレーニング レシピは、標準の事前トレーニングと比較してモデルの品質に大きな影響を与えることなく、事前トレーニング データへの忠実な帰属を可能にすることを実証します。
私たちの結果は、アトリビューションを達成する際のデータ拡張の重要性も強調しています。
コードとデータはここで入手できます: \url{https://github.com/mukhal/intrinsic-source-quote}

要約(オリジナル)

Large language models (LLMs) learn a vast amount of knowledge during pretraining, but they are often oblivious to the source(s) of such knowledge. We investigate the problem of intrinsic source citation, where LLMs are required to cite the pretraining source supporting a generated response. Intrinsic source citation can enhance LLM transparency, interpretability, and verifiability. To give LLMs such ability, we explore source-aware training — a post pretraining recipe that involves (i) training the LLM to associate unique source document identifiers with the knowledge in each document, followed by (ii) an instruction-tuning to teach the LLM to cite a supporting pretraining source when prompted. Source-aware training can easily be applied to pretrained LLMs off the shelf, and diverges minimally from existing pretraining/fine-tuning frameworks. Through experiments on carefully curated data, we demonstrate that our training recipe can enable faithful attribution to the pretraining data without a substantial impact on the model’s quality compared to standard pretraining. Our results also highlight the importance of data augmentation in achieving attribution. Code and data available here: \url{https://github.com/mukhal/intrinsic-source-citation}

arxiv情報

著者 Muhammad Khalifa,David Wadden,Emma Strubell,Honglak Lee,Lu Wang,Iz Beltagy,Hao Peng
発行日 2024-04-11 16:32:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク