Enhancing elusive clues in knowledge learning by contrasting attention of language models

要約

因果的言語モデルは、事前トレーニング中に一般的なテキスト コーパスから膨大な量の知識を取得しますが、特に知識が密で小規模なコーパスから学習する場合、知識学習の効率は満足のいくものではないことが知られています。
この欠陥は、言語モデルで捉えるのが難しい長距離の依存関係や、トレーニング テキスト内の共起パターンや気を散らす手がかりへの過剰適合に起因する可能性があります。
これらの問題に対処するために、この論文では、言語モデル自体によって発見されたテキスト内のとらえどころのない、しかし重要な手がかりを強化することによって、言語モデルの事前トレーニング中の知識学習を強化する方法を提案しています。
私たちは、より大きな言語モデルは、より小さな言語モデルでは見落とされがちな、明白ではないが重要な手がかりにより多くの注意を払っていることを発見しました。
したがって、大規模な言語モデルと小規模な言語モデルの注意の重みを対比することで、これらの手がかりを特定できます。
特定された手がかりをガイドとして使用して、トレーニング テキストに対してトークン ドロップアウト データ拡張を実行したところ、小規模モデルと大規模モデルの両方で実際の記憶におけるパフォーマンスが大幅に向上することが観察されました。
これは、パフォーマンスの高い言語モデルと低い言語モデルの間の動作の対比には知識学習のための重要な手がかりが含まれており、それを「増幅」して知識学習の効率を直接的に向上させることができることを示しています。

要約(オリジナル)

Causal language models acquire vast amount of knowledge from general text corpus during pretraining, but the efficiency of knowledge learning is known to be unsatisfactory, especially when learning from knowledge-dense and small-sized corpora. The deficiency can come from long-distance dependencies which are hard to capture by language models, and overfitting to co-occurrence patterns and distracting clues in the training text. To address these issues, the paper proposes a method to enhance knowledge learning during language model pretraining, by enhancing elusive but important clues in text discovered by the language model themselves. We found that larger language models pay more attention to non-obvious but important clues, which are often overlooked by smaller language models. Therefore, we can identify these clues by contrasting the attention weights of large and small language models. We use the identified clues as a guide to perform token-dropout data augmentation on the training text, and observed a significant boost in both small and large models’ performance in fact memorization. This shows that the behavior contrast between more and less-performant language models contains important clues for knowledge learning, and it can be “amplified’ for a straight-forward improvement in knowledge learning efficiency.

arxiv情報

著者 Jian Gao,Xiao Zhang,Ji Wu,Miao Li
発行日 2024-09-26 15:30:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク