Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

要約

大規模な言語モデルが教師あり微調整によって調整されると、事前トレーニングでは取得できなかった新しい事実情報に遭遇する可能性があります。
モデルは既存の知識に基づいていない事実を生成するようにトレーニングされているため、これにより事実に誤りのある幻覚反応の動作をモデルに学習させることができるとよく推測されます。
この研究では、このような新しい知識への曝露が、既存の知識を利用する微調整モデルの能力に与える影響を研究します。
この目的を達成するために、私たちはクローズドブック QA に焦点を当てた制御されたセットアップを設計し、新しい知識を導入する微調整サンプルの割合を変更します。
新しい知識を導入する微調整の例は、モデルの知識と一致する例よりも学習が大幅に遅いため、大規模な言語モデルは微調整を通じて新しい事実の知識を獲得するのに苦労することを示します。
ただし、新しい知識を持つ例が最終的に学習されるにつれて、モデルの幻覚傾向が直線的に増加することもわかりました。
まとめると、私たちの結果は、微調整を通じて新しい事実知識を導入することのリスクを強調しており、大規模な言語モデルは主に事前トレーニングを通じて事実知識を獲得するのに対し、微調整は事実知識をより効率的に使用することを教えるという見解を裏付けています。

要約(オリジナル)

When large language models are aligned via supervised fine-tuning, they may encounter new factual information that was not acquired through pre-training. It is often conjectured that this can teach the model the behavior of hallucinating factually incorrect responses, as the model is trained to generate facts that are not grounded in its pre-existing knowledge. In this work, we study the impact of such exposure to new knowledge on the capability of the fine-tuned model to utilize its pre-existing knowledge. To this end, we design a controlled setup, focused on closed-book QA, where we vary the proportion of the fine-tuning examples that introduce new knowledge. We demonstrate that large language models struggle to acquire new factual knowledge through fine-tuning, as fine-tuning examples that introduce new knowledge are learned significantly slower than those consistent with the model’s knowledge. However, we also find that as the examples with new knowledge are eventually learned, they linearly increase the model’s tendency to hallucinate. Taken together, our results highlight the risk in introducing new factual knowledge through fine-tuning, and support the view that large language models mostly acquire factual knowledge through pre-training, whereas fine-tuning teaches them to use it more efficiently.

arxiv情報

著者 Zorik Gekhman,Gal Yona,Roee Aharoni,Matan Eyal,Amir Feder,Roi Reichart,Jonathan Herzig
発行日 2024-05-09 17:00:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク