FIT: Far-reaching Interleaved Transformers

要約

私たちは、効率的なセルフアテンションと適応計算を備えたトランスフォーマーベースのアーキテクチャである FIT を紹介します。
データ トークンの単一シーケンスで動作する元のトランスフォーマーとは異なり、データ トークンをグループに分割し、各グループはより短いトークン シーケンスになります。
私たちは 2 種類のトランスフォーマー層を採用しています。ローカル層は各グループ内のデータ トークンで動作し、グローバル層は導入された潜在トークンのより小さなセットで動作します。
標準トランスフォーマーと同じセルフ アテンション層とフィードフォワード層のセットで構成されるこれらの層はインターリーブされ、クロスアテンションを使用して、同じグループ内のデータと潜在トークン間の情報交換が容易になります。
アテンションの複雑さは、サイズ $n$ の各グループ内では局所的には $O(n^2)$ ですが、シーケンス長が $L$ の場合、グローバルでは $O(L^{{4}/{3}})$ に達する可能性があります。
より小さな潜在トークンのセットを使用して適応計算を実行するグ​​ローバル層にさらに依存することで、効率をさらに高めることができます。
FIT は多用途のアーキテクチャであり、エンコーダ、拡散デコーダ、または自己回帰デコーダとして機能できます。
私たちは、高解像度画像の理解と生成タスクにおけるその有効性を実証する初期の証拠を提供します。
特に、FIT は、特定の最適化やモデルを必要とせずに、16GB のメモリ容量内で、6400$\times$6400 の画像や 160K のトークン (パッチトークン化後) などのギガビット規模のデータに対してエンドツーエンドのトレーニングを実行できる可能性を示しています。
平行性。

要約(オリジナル)

We present FIT: a transformer-based architecture with efficient self-attention and adaptive computation. Unlike original transformers, which operate on a single sequence of data tokens, we divide the data tokens into groups, with each group being a shorter sequence of tokens. We employ two types of transformer layers: local layers operate on data tokens within each group, while global layers operate on a smaller set of introduced latent tokens. These layers, comprising the same set of self-attention and feed-forward layers as standard transformers, are interleaved, and cross-attention is used to facilitate information exchange between data and latent tokens within the same group. The attention complexity is $O(n^2)$ locally within each group of size $n$, but can reach $O(L^{{4}/{3}})$ globally for sequence length of $L$. The efficiency can be further enhanced by relying more on global layers that perform adaptive computation using a smaller set of latent tokens. FIT is a versatile architecture and can function as an encoder, diffusion decoder, or autoregressive decoder. We provide initial evidence demonstrating its effectiveness in high-resolution image understanding and generation tasks. Notably, FIT exhibits potential in performing end-to-end training on gigabit-scale data, such as 6400$\times$6400 images, or 160K tokens (after patch tokenization), within a memory capacity of 16GB, without requiring specific optimizations or model parallelism.

arxiv情報

著者 Ting Chen,Lala Li
発行日 2023-05-25 16:27:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク