TransformerFAM: Feedback attention is working memory

要約

Transformer は深層学習に革命をもたらしましたが、二次注意の複雑さが無限に長い入力を処理する能力を妨げています。
私たちは、フィードバックループを利用してネットワークが自身の潜在表現に対応できるようにする新しい Transformer アーキテクチャであるフィードバックアテンションメモリ (FAM) を提案します。
この設計により、Transformer 内での作業メモリの出現が促進され、無限に長いシーケンスを処理できるようになります。
TransformerFAM には追加の重みが必要ないため、事前トレーニングされたモデルとのシームレスな統合が可能になります。
私たちの実験では、TransformerFAM がさまざまなモデルサイズ (1B、8B、24B) にわたるロングコンテキストタスクにおける Transformer のパフォーマンスを大幅に向上させることが示されています。
これらの結果は、大規模言語モデル (LLM) が無制限の長さのシーケンスを処理できるようにする可能性を示しています。

要約(オリジナル)

While Transformers have revolutionized deep learning, their quadratic attention complexity hinders their ability to process infinitely long inputs. We propose Feedback Attention Memory (FAM), a novel Transformer architecture that leverages a feedback loop to enable the network to attend to its own latent representations. This design fosters the emergence of working memory within the Transformer, allowing it to process indefinitely long sequences. TransformerFAM requires no additional weights, enabling seamless integration with pre-trained models. Our experiments show that TransformerFAM significantly improves Transformer performance on long-context tasks across various model sizes (1B, 8B, and 24B). These results showcase the potential to empower Large Language Models (LLMs) to process sequences of unlimited length.

arxiv情報

著者	Dongseong Hwang,Weiran Wang,Zhuoyuan Huo,Khe Chai Sim,Pedro Moreno Mengibar
発行日	2024-05-07 13:23:46+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

TransformerFAM: Feedback attention is working memory

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー