要約
Transformer は深層学習に革命をもたらしましたが、二次注意の複雑さが無限に長い入力を処理する能力を妨げています。
私たちは、フィードバック ループを利用してネットワークが自身の潜在表現に対応できるようにする新しい Transformer アーキテクチャであるフィードバック アテンション メモリ (FAM) を提案します。
この設計により、Transformer 内での作業メモリの出現が促進され、無限に長いシーケンスを処理できるようになります。
TransformerFAM には追加の重みが必要ないため、事前トレーニングされたモデルとのシームレスな統合が可能になります。
私たちの実験では、TransformerFAM がさまざまなモデル サイズ (1B、8B、24B) にわたるロングコンテキスト タスクにおける Transformer のパフォーマンスを大幅に向上させることが示されています。
これらの結果は、大規模言語モデル (LLM) が無制限の長さのシーケンスを処理できるようにする可能性を示しています。
要約(オリジナル)
While Transformers have revolutionized deep learning, their quadratic attention complexity hinders their ability to process infinitely long inputs. We propose Feedback Attention Memory (FAM), a novel Transformer architecture that leverages a feedback loop to enable the network to attend to its own latent representations. This design fosters the emergence of working memory within the Transformer, allowing it to process indefinitely long sequences. TransformerFAM requires no additional weights, enabling seamless integration with pre-trained models. Our experiments show that TransformerFAM significantly improves Transformer performance on long-context tasks across various model sizes (1B, 8B, and 24B). These results showcase the potential to empower Large Language Models (LLMs) to process sequences of unlimited length.
arxiv情報
著者 | Dongseong Hwang,Weiran Wang,Zhuoyuan Huo,Khe Chai Sim,Pedro Moreno Mengibar |
発行日 | 2024-05-07 13:23:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google