Ripple Attention for Visual Perception with Sub-quadratic Complexity

要約

Transformerアーキテクチャは、シーケンスモデリングタスクの中心になりました。
その中心となるのは注意メカニズムであり、これにより、シーケンス内の長期的な依存関係の効果的なモデリングが可能になります。
最近、トランスフォーマーはコンピュータービジョンの分野でうまく適用されており、2D画像は最初にパッチにセグメント化され、次に1Dシーケンスとして扱われます。
ただし、このような線形化は、重要な視覚的手がかりとなる画像の空間的局所性の概念を損ないます。
ギャップを埋めるために、ビジョントランスのサブ二次注意メカニズムであるリップル注意を提案します。
最近のカーネルベースの効率的な注意メカニズムに基づいて構築された、線形観測時間の2D空間での相対的な空間距離に関して、クエリへのさまざまなトークンの寄与に重みを付ける新しい動的プログラミングアルゴリズムを設計します。
広範な実験と分析は、さまざまな視覚的タスクに対する波紋注意の有効性を示しています。

要約(オリジナル)

Transformer architectures are now central to sequence modeling tasks. At its heart is the attention mechanism, which enables effective modeling of long-term dependencies in a sequence. Recently, transformers have been successfully applied in the computer vision domain, where 2D images are first segmented into patches and then treated as 1D sequences. Such linearization, however, impairs the notion of spatial locality in images, which bears important visual clues. To bridge the gap, we propose ripple attention, a sub-quadratic attention mechanism for vision transformers. Built upon the recent kernel-based efficient attention mechanisms, we design a novel dynamic programming algorithm that weights contributions of different tokens to a query with respect to their relative spatial distances in the 2D space in linear observed time. Extensive experiments and analyses demonstrate the effectiveness of ripple attention on various visual tasks.

arxiv情報

著者 Lin Zheng,Huijie Pan,Lingpeng Kong
発行日 2022-06-15 13:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク