Retentive or Forgetful? Diving into the Knowledge Memorizing Mechanism of Language Models

要約

記憶は、世界の知識や活動のエピソードの宝庫として機能する最も重要な認知機能の 1 つです。
近年、大規模な事前トレーニング済み言語モデルは、顕著な記憶能力を示しています。
逆に、事前トレーニングを行わないバニラ ニューラル ネットワークは、壊滅的な忘却の問題に悩まされることが長い間観察されてきました。
このような保持と忘却の矛盾を調査し、言語モデルの記憶メカニズムを理解するために、私たちは対象となる知識の種類、学習戦略、学習スケジュールを制御して徹底的な実験を行います。
1) バニラ言語モデルは忘れっぽいことがわかります。
2) 事前トレーニングにより、言語モデルの保持が可能になります。
3) 知識の関連性と多様化は記憶形成に大きな影響を与えます。
これらの結論は、事前トレーニングされた言語モデルの能力を理解するのに役立ち、言語モデルの新しい学習および推論アルゴリズムの設計と評価に光を当てます。

要約(オリジナル)

Memory is one of the most essential cognitive functions serving as a repository of world knowledge and episodes of activities. In recent years, large-scale pre-trained language models have shown remarkable memorizing ability. On the contrary, vanilla neural networks without pre-training have been long observed suffering from the catastrophic forgetting problem. To investigate such a retentive-forgetful contradiction and understand the memory mechanism of language models, we conduct thorough experiments by controlling the target knowledge types, the learning strategies and the learning schedules. We find that: 1) Vanilla language models are forgetful; 2) Pre-training leads to retentive language models; 3) Knowledge relevance and diversification significantly influence the memory formation. These conclusions are useful for understanding the abilities of pre-trained language models and shed light on designing and evaluating new learning and inference algorithms of language models.

arxiv情報

著者 Boxi Cao,Qiaoyu Tang,Hongyu Lin,Shanshan Jiang,Bin Dong,Xianpei Han,Jiawei Chen,Tianshu Wang,Le Sun
発行日 2024-03-13 12:34:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク