General-purpose, long-context autoregressive modeling with Perceiver AR

要約

実世界のデータは高次元です。本、画像、または音楽のパフォーマンスには、圧縮後でも数十万の要素が簡単に含まれる可能性があります。
ただし、最も一般的に使用される自己回帰モデルであるTransformersは、この長距離構造をキャプチャするために必要な入力とレイヤーの数に合わせてスケーリングするには、法外な費用がかかります。
自己回帰のモダリティにとらわれないアーキテクチャであるPerceiverARを開発します。これは、クロスアテンションを使用して、エンドツーエンドの因果マスキングを維持しながら、長距離入力を少数の潜在にマッピングします。
Perceiver ARは、10万を超えるトークンに直接アクセスできるため、手作りのスパースパターンやメモリメカニズムを必要とせずに、実用的なロングコンテキスト密度推定が可能になります。
画像や音楽でトレーニングされると、PerceiverARは明確な長期的な一貫性と構造を備えた出力を生成します。
私たちのアーキテクチャは、64 x 64のImageNet画像やPG-19ブックなど、ロングシーケンスベンチマークで最先端の可能性も獲得しています。

要約(オリジナル)

Real-world data is high-dimensional: a book, image, or musical performance can easily contain hundreds of thousands of elements even after compression. However, the most commonly used autoregressive models, Transformers, are prohibitively expensive to scale to the number of inputs and layers needed to capture this long-range structure. We develop Perceiver AR, an autoregressive, modality-agnostic architecture which uses cross-attention to map long-range inputs to a small number of latents while also maintaining end-to-end causal masking. Perceiver AR can directly attend to over a hundred thousand tokens, enabling practical long-context density estimation without the need for hand-crafted sparsity patterns or memory mechanisms. When trained on images or music, Perceiver AR generates outputs with clear long-term coherence and structure. Our architecture also obtains state-of-the-art likelihood on long-sequence benchmarks, including 64 x 64 ImageNet images and PG-19 books.

arxiv情報

著者 Curtis Hawthorne,Andrew Jaegle,Cătălina Cangea,Sebastian Borgeaud,Charlie Nash,Mateusz Malinowski,Sander Dieleman,Oriol Vinyals,Matthew Botvinick,Ian Simon,Hannah Sheahan,Neil Zeghidour,Jean-Baptiste Alayrac,João Carreira,Jesse Engel
発行日 2022-06-14 16:55:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SD, eess.AS パーマリンク