The Effect of Masking Strategies on Knowledge Retention by Language Models

要約

言語モデルは、トレーニング前の段階から大量の世界知識を保持します。
これにより、知識豊富なモデルを、ランキングや質問応答などの情報検索で一般的な知識集約型タスクに適用できます。
責任あるモデルを構築するには、モデルがどの事実情報をどのように取得するかを理解することが必要です。
ただし、事前トレーニング中に言語モデルによって取得および忘れられる知識の量に対する事前トレーニング タスクの影響を理解するために行われた研究は限られています。
知識の獲得についての理解を深めることが、この文書の目標です。
したがって、私たちはモデルに知識を注入するために、選択された事前トレーニング タスクを利用します。
次の手順では、事実に関する質問に答える能力を測定することによって、モデルの知識保持をテストします。
私たちの実験では、エンティティのマスキングと点単位の相互情報に基づく相関スパンの原則的なマスキングにより、ランダムなトークンをマスキングするよりも多くの事実知識が保持されることがわかりました。
私たちの調査結果は、タスクを実行する能力と同様に、そのタスクのトレーニングから取得した(事実の)知識は、モデルが別のタスクを実行するようにトレーニングされると忘れられること(壊滅的な忘却)と、この現象を防ぐ方法を示しています。
再現性を高めるために、この論文で使用されているコードとデータは公開されています。

要約(オリジナル)

Language models retain a significant amount of world knowledge from their pre-training stage. This allows knowledgeable models to be applied to knowledge-intensive tasks prevalent in information retrieval, such as ranking or question answering. Understanding how and which factual information is acquired by our models is necessary to build responsible models. However, limited work has been done to understand the effect of pre-training tasks on the amount of knowledge captured and forgotten by language models during pre-training. Building a better understanding of knowledge acquisition is the goal of this paper. Therefore, we utilize a selection of pre-training tasks to infuse knowledge into our model. In the following steps, we test the model’s knowledge retention by measuring its ability to answer factual questions. Our experiments show that masking entities and principled masking of correlated spans based on pointwise mutual information lead to more factual knowledge being retained than masking random tokens. Our findings demonstrate that, like the ability to perform a task, the (factual) knowledge acquired from being trained on that task is forgotten when a model is trained to perform another task (catastrophic forgetting) and how to prevent this phenomenon. To foster reproducibility, the code, as well as the data used in this paper, are openly available.

arxiv情報

著者 Jonas Wallat,Tianyi Zhang,Avishek Anand
発行日 2023-06-12 15:35:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク