Effective LLM Knowledge Learning via Model Generalization

要約

大規模な言語モデル(LLM)は、広範な世界知識を含む膨大な文書で訓練されています。
ただし、自己回帰前のトレーニングを介して知識がどのように獲得されるかはまだ十分に理解されていません。
この進化する情報には、基本的な知識のような多様な繰り返しが欠けているため、この理解の欠如は、特に最新の情報を継続するために、効果的な知識学習を非常に妨げます。
この論文では、LLMの知識学習の理解と改善に焦点を当てています。
LLMの知識学習は、自動脱退前の目標に隠された暗黙の監視されたタスクと見なされる可能性があることを発見しました。
私たちの調査結果は、LLMの知識学習が、監視されたタスクの一般化能力を改善するために設計された方法から恩恵を受けることを示唆しています。
分析に基づいて、フォーマットベースのデータ増強を提案して、分布内のサンプルを栽培しますが​​、これはテキストの言い換えとしてドキュメントに埋め込まれた事実を変更するリスクを提示しません。
また、一般化を改善するために、効果的な最適化アルゴリズムとしてSharpness-Waseの最小化を導入します。
さらに、私たちの分析と方法は、指示の調整に容易に拡張できます。
広範な実験結果は、調査結果を検証し、継続的なトレーニングと指導の調整の両方において、私たちの方法の有効性を実証します。
このペーパーでは、LLM知識学習のための効果的な戦略を解釈および設計するための新しい視点と洞察を提供します。

要約(オリジナル)

Large language models (LLMs) are trained on enormous documents that contain extensive world knowledge. However, it is still not well-understood how knowledge is acquired via autoregressive pre-training. This lack of understanding greatly hinders effective knowledge learning, especially for continued pretraining on up-to-date information, as this evolving information often lacks diverse repetitions like foundational knowledge. In this paper, we focus on understanding and improving LLM knowledge learning. We found and verified that knowledge learning for LLMs can be deemed as an implicit supervised task hidden in the autoregressive pre-training objective. Our findings suggest that knowledge learning for LLMs would benefit from methods designed to improve generalization ability for supervised tasks. Based on our analysis, we propose the formatting-based data augmentation to grow in-distribution samples, which does not present the risk of altering the facts embedded in documents as text paraphrasing. We also introduce sharpness-aware minimization as an effective optimization algorithm to better improve generalization. Moreover, our analysis and method can be readily extended to instruction tuning. Extensive experiment results validate our findings and demonstrate our methods’ effectiveness in both continued pre-training and instruction tuning. This paper offers new perspectives and insights to interpret and design effective strategies for LLM knowledge learning.

arxiv情報

著者 Mingkang Zhu,Xi Chen,Zhongdao Wang,Bei Yu,Hengshuang Zhao,Jiaya Jia
発行日 2025-03-05 17:56:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク