Memorization in Attention-only Transformers

要約

最近の研究では、複数の頭の注意による記憶能力が調査されていますが、これらの発見は、コンテキストのサイズに関する非現実的な制限によって制約されています。
私たちは、現在の仮説をあらゆるコンテキスト サイズに拡張する、言語ベースの Transformers の新しい証明を提示します。
私たちのアプローチは、分布の近似記憶の概念を導入しながら、注意層を使用してより効果的な正確な記憶を達成することにより、最先端の方法を改良しています。
実験的な検証を通じて、提案した境界が言語モデルの真の記憶能力をより正確に反映し、以前の研究との正確な比較を提供することを実証します。

要約(オリジナル)

Recent research has explored the memorization capacity of multi-head attention, but these findings are constrained by unrealistic limitations on the context size. We present a novel proof for language-based Transformers that extends the current hypothesis to any context size. Our approach improves upon the state-of-the-art by achieving more effective exact memorization with an attention layer, while also introducing the concept of approximate memorization of distributions. Through experimental validation, we demonstrate that our proposed bounds more accurately reflect the true memorization capacity of language models, and provide a precise comparison with prior work.

arxiv情報

著者 Léo Dana,Muni Sreenivas Pydi,Yann Chevaleyre
発行日 2024-11-15 11:29:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク