Generalisation First, Memorisation Second? Memorisation Localisation for Natural Language Classification Tasks

要約

記憶は実世界のデータから学習する際の自然な部分です。ニューラル モデルは、非典型的な入出力の組み合わせを検出し、それらのトレーニング サンプルをパラメーター空間に保存します。
これが起こることはよく知られていますが、どこでどのように起こるのかという疑問はほとんど解決されていません。
多層のニューラル モデルが与えられた場合、数百万のパラメーターのどこで記憶が行われるでしょうか?
関連研究では、相反する発見が報告されています。画像分類に基づく有力な仮説は、下位層が一般化可能な特徴を学習し、より深い層が特殊化して記憶するというものです。
NLP の研究によれば、これは言語モデルには当てはまらず、主に事実の記憶に焦点を当てているとのことです。
ローカリゼーションの質問の範囲を 12 の自然言語分類タスクに拡張し、4 つの記憶ローカリゼーション手法を適用します。
私たちの結果は、記憶が局所的なプロセスではなく段階的なプロセスであることを示し、記憶がタスクに依存していることを確立し、最初に一般化、二番目に記憶という仮説に微妙なニュアンスを与えています。

要約(オリジナル)

Memorisation is a natural part of learning from real-world data: neural models pick up on atypical input-output combinations and store those training examples in their parameter space. That this happens is well-known, but how and where are questions that remain largely unanswered. Given a multi-layered neural model, where does memorisation occur in the millions of parameters? Related work reports conflicting findings: a dominant hypothesis based on image classification is that lower layers learn generalisable features and that deeper layers specialise and memorise. Work from NLP suggests this does not apply to language models, but has been mainly focused on memorisation of facts. We expand the scope of the localisation question to 12 natural language classification tasks and apply 4 memorisation localisation techniques. Our results indicate that memorisation is a gradual process rather than a localised one, establish that memorisation is task-dependent, and give nuance to the generalisation first, memorisation second hypothesis.

arxiv情報

著者 Verna Dankers,Ivan Titov
発行日 2024-08-09 09:30:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク