要約
事前トレーニングされた大規模言語モデル (PLM) に新しい情報を教えることは、重要ですが困難な作業です。
微調整やパラメータ効率の高いトレーニングなどのモデル適応手法は、新しい事実を保存する速度が遅いことがわかっています。
継続的に学習することも選択肢の一つですが、費用がかかり、壊滅的な忘れが起こりやすくなります。
この研究では、特定の日付までの世界の知識のみが含まれるトレーニング前のコーパスでは発生しない、新しい世界の知識事実を PLM がどのように学習して記憶するかを研究し、定量化します。
その目的のために、私たちはまず Novel-WD を提案します。これは、最近のウィキデータの更新から抽出された新しい事実を含む文章で構成される新しいデータセットと、因果言語モデリングと多肢選択質問 (MCQ) の形式の 2 つの評価タスクから構成されます。
このデータセットはコミュニティが自由に利用できるようにし、後で最新の情報を備えた同様のデータセットの新しいバージョンを構築するための手順をリリースします。
また、新しい情報学習のためのプレフィックス チューニングの使用を検討し、特定のプレフィックス内にどれだけの情報を保存できるかを分析します。
単一のファクトを単一のプレフィックス内で確実にエンコードできること、およびプレフィックスの容量がその長さと基本モデルのサイズとともに増加することを示します。
要約(オリジナル)
Teaching new information to pre-trained large language models (PLM) is a crucial but challenging task. Model adaptation techniques, such as fine-tuning and parameter-efficient training have been shown to store new facts at a slow rate; continual learning is an option but is costly and prone to catastrophic forgetting. This work studies and quantifies how PLM may learn and remember new world knowledge facts that do not occur in their pre-training corpus, which only contains world knowledge up to a certain date. To that purpose, we first propose Novel-WD, a new dataset consisting of sentences containing novel facts extracted from recent Wikidata updates, along with two evaluation tasks in the form of causal language modeling and multiple choice questions (MCQ). We make this dataset freely available to the community, and release a procedure to later build new versions of similar datasets with up-to-date information. We also explore the use of prefix-tuning for novel information learning, and analyze how much information can be stored within a given prefix. We show that a single fact can reliably be encoded within a single prefix, and that the prefix capacity increases with its length and with the base model size.
arxiv情報
著者 | Maxime Méloux,Christophe Cerisara |
発行日 | 2024-08-30 07:54:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google