要約
特に低データのシナリオで、またはプライベートドキュメントや専門文書を扱う場合、(大規模な)言語モデルの事前トレーニング後の(大規模な)言語モデルの後の新しいまたは急速に進化する情報を動的に統合します。
コンテキスト内の学習と検索の高等発電(RAG)は、高い推論コストやグローバルなドキュメント情報をキャプチャできないことを含む、直面の制限があります。
このホワイトペーパーでは、ドキュメントレベルの知識モジュール(KMS)をトレーニングすることにより、知識をモジュール化する方法を提案します。
KMSは、パラメーター効率の高いLORAモジュールとして実装された軽量コンポーネントであり、新しいドキュメントに関する情報を保存するためにトレーニングされ、オンデマンドでモデルに簡単にプラグインできます。
次のトークン予測がKMSのトレーニング目標としてパフォーマンスが低いことを示します。
代わりに、深いコンテキストの蒸留を提案します。文書を文脈で取る教師の隠された状態とロジットをシミュレートするなどのKMSパラメーターを学習します。
私たちの方法は、2つのデータセットにわたって、標準の次のトークン予測とインストラクション前のトレーニング技術を上回ります。
最後に、KMSとRAGの相乗効果を強調します。
要約(オリジナル)
Dynamically integrating new or rapidly evolving information after (Large) Language Model pre-training remains challenging, particularly in low-data scenarios or when dealing with private and specialized documents. In-context learning and retrieval-augmented generation (RAG) face limitations, including their high inference costs and their inability to capture global document information. In this paper, we propose a way of modularizing knowledge by training document-level Knowledge Modules (KMs). KMs are lightweight components implemented as parameter-efficient LoRA modules, which are trained to store information about new documents and can be easily plugged into models on demand. We show that next-token prediction performs poorly as the training objective for KMs. We instead propose Deep Context Distillation: we learn KMs parameters such as to simulate hidden states and logits of a teacher that takes the document in context. Our method outperforms standard next-token prediction and pre-instruction training techniques, across two datasets. Finally, we highlight synergies between KMs and RAG.
arxiv情報
著者 | Lucas Caccia,Alan Ansell,Edoardo Ponti,Ivan Vulić,Alessandro Sordoni |
発行日 | 2025-04-29 17:11:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google