MxT: Mamba x Transformer for Image Inpainting

要約

画像の修復、または画像の完成は、意味的に一貫したコンテンツを含む画像の欠落または損傷した領域を復元することを目的とした、コンピューター ビジョンにおける重要なタスクです。
この技術では、復元されたイメージが周囲とシームレスに統合されるように、ローカル テクスチャの複製とグローバルなコンテキストの理解の正確なバランスが必要です。
畳み込みニューラル ネットワーク (CNN) を使用した従来の方法は、局所的なパターンを捉えるのには効果的ですが、受容野が限られているため、より広範な文脈上の関係に苦労することがよくあります。
最近の進歩には、グローバルな相互作用を理解する能力を活用した変圧器が組み込まれています。
ただし、これらの方法は計算の非効率性に直面しており、きめの細かい詳細を維持するのが困難です。
これらの課題を克服するために、Mamba とトランスを相乗的に組み合わせた、提案されたハイブリッド モジュール (HM) で構成される MxT を紹介します。
Mamba は線形の計算コストで長いシーケンスを効率的に処理することに長けており、大規模なデータ対話を処理するためのトランスフォーマーを補完するのに理想的です。
当社の HM は、ピクセル レベルとパッチ レベルの両方でデュアルレベルのインタラクション学習を促進し、高品質でコンテキストの正確な画像を再構築するモデルを大幅に強化します。
私たちは、広く使用されている CelebA-HQ および Places2 標準データセットで MxT を評価し、既存の最先端の手法を常に上回りました。

要約(オリジナル)

Image inpainting, or image completion, is a crucial task in computer vision that aims to restore missing or damaged regions of images with semantically coherent content. This technique requires a precise balance of local texture replication and global contextual understanding to ensure the restored image integrates seamlessly with its surroundings. Traditional methods using Convolutional Neural Networks (CNNs) are effective at capturing local patterns but often struggle with broader contextual relationships due to the limited receptive fields. Recent advancements have incorporated transformers, leveraging their ability to understand global interactions. However, these methods face computational inefficiencies and struggle to maintain fine-grained details. To overcome these challenges, we introduce MxT composed of the proposed Hybrid Module (HM), which combines Mamba with the transformer in a synergistic manner. Mamba is adept at efficiently processing long sequences with linear computational costs, making it an ideal complement to the transformer for handling long-scale data interactions. Our HM facilitates dual-level interaction learning at both pixel and patch levels, greatly enhancing the model to reconstruct images with high quality and contextual accuracy. We evaluate MxT on the widely-used CelebA-HQ and Places2-standard datasets, where it consistently outperformed existing state-of-the-art methods.

arxiv情報

著者 Shuang Chen,Amir Atapour-Abarghouei,Haozheng Zhang,Hubert P. H. Shum
発行日 2024-07-26 16:20:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク