Memorization in Attention-only Transformers

要約

最近の研究では、マルチヘッドの注意の記憶能力が調査されていますが、これらの調査結果は、コンテキストサイズの非現実的な制限によって制約されています。
現在の仮説をコンテキストサイズに拡張する言語ベースのトランスの新しい証拠を提示します。
私たちのアプローチは、注意層でより効果的な正確な暗記を達成することにより、最先端のアートを改善し、また、分配のおおよその暗記の概念を導入します。
実験的検証を通じて、提案された限界が言語モデルの真の記憶能力をより正確に反映し、以前の作業と正確な比較を提供することを実証します。

要約(オリジナル)

Recent research has explored the memorization capacity of multi-head attention, but these findings are constrained by unrealistic limitations on the context size. We present a novel proof for language-based Transformers that extends the current hypothesis to any context size. Our approach improves upon the state-of-the-art by achieving more effective exact memorization with an attention layer, while also introducing the concept of approximate memorization of distributions. Through experimental validation, we demonstrate that our proposed bounds more accurately reflect the true memorization capacity of language models, and provide a precise comparison with prior work.

arxiv情報

著者 Léo Dana,Muni Sreenivas Pydi,Yann Chevaleyre
発行日 2025-03-10 08:40:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク