U-shaped Vision Mamba for Single Image Dehazing

要約

現在、Transformer は画像のかすみ除去用の最も一般的なアーキテクチャですが、計算の複雑さが大きいため、リソースに制約のあるデバイスでは長距離の依存関係を処理する能力が制限されます。
この課題に取り組むために、効率的な単一画像かすみ除去ネットワークである U 字型 Vision Mamba (UVM-Net) を導入します。
長いシーケンスを処理する能力で知られる新しい深シーケンス モデルである状態空間シーケンス モデル (SSM) からインスピレーションを得て、畳み込み層の局所特徴抽出機能と SSM の機能を統合する Bi-SSM ブロックを設計します。
長距離の依存関係を把握します。
広範な実験結果により、私たちの方法の有効性が実証されています。
私たちの方法は、画像のかすみ除去やその他の画像復元タスクのための長距離依存関係モデリングのより効率的なアイデアを提供します。
コードの URL は \url{https://github.com/zzr-idam/UVM-Net} です。
私たちの方法では、I/O 処理時間なしで $325 \times 325$ 解像度の画像 (100FPS) を推論するのに \textbf{0.009} 秒しかかかりません。

要約(オリジナル)

Currently, Transformer is the most popular architecture for image dehazing, but due to its large computational complexity, its ability to handle long-range dependency is limited on resource-constrained devices. To tackle this challenge, we introduce the U-shaped Vision Mamba (UVM-Net), an efficient single-image dehazing network. Inspired by the State Space Sequence Models (SSMs), a new deep sequence model known for its power to handle long sequences, we design a Bi-SSM block that integrates the local feature extraction ability of the convolutional layer with the ability of the SSM to capture long-range dependencies. Extensive experimental results demonstrate the effectiveness of our method. Our method provides a more highly efficient idea of long-range dependency modeling for image dehazing as well as other image restoration tasks. The URL of the code is \url{https://github.com/zzr-idam/UVM-Net}. Our method takes only \textbf{0.009} seconds to infer a $325 \times 325$ resolution image (100FPS) without I/O handling time.

arxiv情報

著者 Zhuoran Zheng,Chen Wu
発行日 2024-02-14 16:45:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク