An Evolved Universal Transformer Memory

要約

従来の方法では、現代の基礎モデルの元のパフォーマンスを維持しながら、手作業で設計されたルールでコンテキストの特定の部分を削除することで、現代の基礎モデルの増大するコストを相殺することを提案しています。
私たちは、ニューラル アテンション メモリ モデル (NAMM) を使用してこのトレードオフを克服し、トランスフォーマーのパフォーマンスと効率の両方を向上させるメモリ管理用の学習済みネットワークを導入しました。
私たちは、事前トレーニングされたトランスフォーマーの上に NAMM を進化させ、個々のレイヤーと注目の対象にとって最も関連性の高い情報に焦点を当てたさまざまな潜在コンテキストを提供します。
NAMM は、生成されたアテンション マトリックスの値のみを条件とするため、セルフ アテンションを使用するあらゆるモデルに普遍的に適用できます。
小規模な問題セットで NAMM を学習すると、モデルの入力コンテキストを元のサイズの数分の一まで削減しながら、複数のロングコンテキスト ベンチマーク全体で大幅なパフォーマンスの向上を達成できます。
我々は、条件付けの汎用性により、入力モダリティを超えても言語のみでトレーニングされた NAMM をまったく新しいトランスフォーマー アーキテクチャにゼロショットで転送でき、その利点が視覚学習や強化学習にも引き継がれることを示します。

要約(オリジナル)

Prior methods propose to offset the escalating costs of modern foundation models by dropping specific parts of their contexts with hand-designed rules, while attempting to preserve their original performance. We overcome this trade-off with Neural Attention Memory Models (NAMMs), introducing a learned network for memory management that improves both the performance and efficiency of transformers. We evolve NAMMs atop pre-trained transformers to provide different latent contexts focusing on the most relevant information for individual layers and attention heads. NAMMs are universally applicable to any model using self-attention as they condition exclusively on the values in the produced attention matrices. Learning NAMMs on a small set of problems, we achieve substantial performance improvements across multiple long-context benchmarks while cutting the model’s input contexts up to a fraction of the original sizes. We show the generality of our conditioning enables zero-shot transfer of NAMMs trained only on language to entirely new transformer architectures even across input modalities, with their benefits carrying over to vision and reinforcement learning.

arxiv情報

著者 Edoardo Cetin,Qi Sun,Tianyu Zhao,Yujin Tang
発行日 2024-12-06 13:22:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク