要約
効率的な画像復元アーキテクチャの計算ビルディング ブロックの状況は、畳み込み処理とさまざまな注意メカニズムの組み合わせによって支配されています。
ただし、畳み込みフィルターは本質的にローカルであるため、画像内の長距離依存関係をモデル化するのに苦労します。
一方、アテンションは、任意の画像領域間のグローバルな相互作用を捉えることに優れていますが、画像の次元では二次的なコストがかかります。
この研究では、コアの計算ブロックで状態空間モデル (SSM) の最近の進歩を活用するアーキテクチャである Serpent を提案します。
SSM は、もともとシーケンス モデリングのために導入されたもので、入力サイズの好ましい線形スケーリングでグローバルな受容野を維持できます。
私たちの予備的な結果は、Serpent が最先端の技術と同等の再構成品質を達成できると同時に、必要な計算量が桁違いに少なく (FLOPS で最大 150 ドル削減)、最大 5 倍削減できることを示しています。
コンパクトなモデルサイズを維持しながらGPUメモリを搭載。
要約(オリジナル)
The landscape of computational building blocks of efficient image restoration architectures is dominated by a combination of convolutional processing and various attention mechanisms. However, convolutional filters are inherently local and therefore struggle at modeling long-range dependencies in images. On the other hand, attention excels at capturing global interactions between arbitrary image regions, however at a quadratic cost in image dimension. In this work, we propose Serpent, an architecture that leverages recent advances in state space models (SSMs) in its core computational block. SSMs, originally introduced for sequence modeling, can maintain a global receptive field with a favorable linear scaling in input size. Our preliminary results demonstrate that Serpent can achieve reconstruction quality on par with state-of-the-art techniques, while requiring orders of magnitude less compute (up to $150$ fold reduction in FLOPS) and a factor of up to $5\times$ less GPU memory while maintaining a compact model size.
arxiv情報
著者 | Mohammad Shahab Sepehri,Zalan Fabian,Mahdi Soltanolkotabi |
発行日 | 2024-03-26 17:43:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google