Transformer-VQ: Linear-Time Transformers via Vector Quantization

要約

線形時間でソフトマックスベースの高密度セルフアテンションを計算するデコーダ専用トランスフォーマである Transformer-VQ を紹介します。
Transformer-VQ の効率的なアテンションは、ベクトル量子化キーと新しいキャッシュメカニズムによって可能になります。
大規模な実験では、Transformer-VQ は品質において非常に競争力があり、Enwik8 (0.99 bpb)、PG-19 (26.6 bpb)、ImageNet64 (3.16 bpb) に対して優れた結果を示しています。
コード: https://github.com/transformer-vq/transformer_vq

要約(オリジナル)

We introduce Transformer-VQ, a decoder-only transformer computing softmax-based dense self-attention in linear time. Transformer-VQ’s efficient attention is enabled by vector-quantized keys and a novel caching mechanism. In large-scale experiments, Transformer-VQ is shown highly competitive in quality, with strong results on Enwik8 (0.99 bpb), PG-19 (26.6 ppl), and ImageNet64 (3.16 bpb). Code: https://github.com/transformer-vq/transformer_vq

arxiv情報

著者	Lucas D. Lingle
発行日	2023-09-28 11:26:52+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Transformer-VQ: Linear-Time Transformers via Vector Quantization

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー