The Unreasonable Ineffectiveness of Nucleus Sampling on Mitigating Text Memorization

要約

この研究では、核サンプリングを受けたときの大規模言語モデル (LLM) のテキスト記憶動作を分析します。
核サンプリングなどの確率的デコード手法は通常、最大化ベースのデコード手法でよく見られる、単調で反復的なテキスト生成などの問題を解決するために適用されます。
核サンプリングは、記憶されたシーケンスの外側のトークンの選択につながる可能性があるため、記憶パターンの発生も減らす可能性があると仮説を立てています。
この仮説を検証するために、重複の分布が既知である診断データセットを作成します。これにより、トレーニング データの特定の部分が記憶される可能性をある程度制御できるようになります。
このデータセットに基づいて微調整された 2 つの GPT-Neo モデルの分析では、興味深いことに、(i) 核サイズの増加による記憶の減少はわずかしかなく、(ii) モデルが「ハードな」記憶を行わない場合でも、逐語的に
トレーニング サンプルの再現 — 依然として「ソフト」記憶を表示する可能性があり、それによってトレーニング データをエコーする出力が生成されますが、完全に 1 つずつ類似するわけではありません。

要約(オリジナル)

This work analyses the text memorization behavior of large language models (LLMs) when subjected to nucleus sampling. Stochastic decoding methods like nucleus sampling are typically applied to overcome issues such as monotonous and repetitive text generation, which are often observed with maximization-based decoding techniques. We hypothesize that nucleus sampling might also reduce the occurrence of memorization patterns, because it could lead to the selection of tokens outside the memorized sequence. To test this hypothesis we create a diagnostic dataset with a known distribution of duplicates that gives us some control over the likelihood of memorization of certain parts of the training data. Our analysis of two GPT-Neo models fine-tuned on this dataset interestingly shows that (i) an increase of the nucleus size reduces memorization only modestly, and (ii) even when models do not engage in ‘hard’ memorization — a verbatim reproduction of training samples — they may still display ‘soft’ memorization whereby they generate outputs that echo the training data but without a complete one-by-one resemblance.

arxiv情報

著者 Luka Borec,Philipp Sadler,David Schlangen
発行日 2024-08-29 08:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク