要約
本質的に 2D 空間構造を捕捉する視覚タスク用に最適化された新しい注意メカニズムである一般化空間伝播ネットワーク (GSPN) を紹介します。
トランスフォーマー、線形アテンション、Mamba のような状態空間モデルなどの既存のアテンション モデルは、多次元データを 1D シーケンスとして処理するため、空間的なコヒーレンスと効率が損なわれます。
GSPN は、空間的にコヒーレントな画像データを直接操作し、ラインスキャン手法を通じて高密度のペアワイズ接続を形成することで、これらの制限を克服します。
GSPN の中心となるのは、安定性コンテキスト条件です。これにより、2D シーケンス全体で安定したコンテキストを意識した伝播が保証され、N 個の要素を持つ正方形マップの有効シーケンス長が $\sqrt{N}$ に削減され、計算効率が大幅に向上します。
GSPN は、学習可能な入力依存の重みを備え、位置埋め込みに依存しないため、ImageNet 分類、クラスガイド付き画像生成、テキストから画像への生成などの視覚タスクにおいて、優れた空間忠実性と最先端のパフォーマンスを実現します。
特に、GSPN は、16K 画像を生成する際に、softmax-attention を使用して SD-XL を $84\times$ 以上高速化します。
要約(オリジナル)
We present the Generalized Spatial Propagation Network (GSPN), a new attention mechanism optimized for vision tasks that inherently captures 2D spatial structures. Existing attention models, including transformers, linear attention, and state-space models like Mamba, process multi-dimensional data as 1D sequences, compromising spatial coherence and efficiency. GSPN overcomes these limitations by directly operating on spatially coherent image data and forming dense pairwise connections through a line-scan approach. Central to GSPN is the Stability-Context Condition, which ensures stable, context-aware propagation across 2D sequences and reduces the effective sequence length to $\sqrt{N}$ for a square map with N elements, significantly enhancing computational efficiency. With learnable, input-dependent weights and no reliance on positional embeddings, GSPN achieves superior spatial fidelity and state-of-the-art performance in vision tasks, including ImageNet classification, class-guided image generation, and text-to-image generation. Notably, GSPN accelerates SD-XL with softmax-attention by over $84\times$ when generating 16K images.
arxiv情報
著者 | Hongjun Wang,Wonmin Byeon,Jiarui Xu,Jinwei Gu,Ka Chun Cheung,Xiaolong Wang,Kai Han,Jan Kautz,Sifei Liu |
発行日 | 2025-01-21 18:56:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google