要約
亀裂はインフラに安全上のリスクをもたらすため、見逃すことはできません。
既存の亀裂セグメンテーション ネットワークの一般的な構造は、主に CNN またはトランスフォーマーで構成されています。
ただし、CNN はグローバル モデリング機能に欠陥があり、クラック フィーチャ全体の表現を妨げています。
トランスフォーマーは長距離の依存関係をキャプチャできますが、高度な二次複雑性が問題となります。
最近、Mamba は、その線形空間および計算の複雑さと強力なグローバル認識により、幅広い注目を集めています。
この研究では、特徴をクラックするための Mamba の表現機能を調査します。
具体的には、この論文は、Mamba とアテンション メカニズムとの関係を明らかにし、Mamba を解釈し、アテンション ブロックの原則に従った新しい Mamba モジュール、つまり CrackMamba を考案することへの深い洞察とアテンションの視点を提供します。
アスファルト舗装とコンクリート舗装の亀裂、および鉄鋼の亀裂をそれぞれ含む 2 つのデータセットで、CrackMamba を最も著名なビジュアル Mamba モジュールである Vim および Vmamba と比較します。
定量的な結果は、CrackMamba がパラメータと計算コストを削減しながら、すべての評価尺度にわたってベースライン モデルのパフォーマンスを一貫して向上させる唯一の Mamba ブロックとして際立っていることを示しています。
さらに、この論文は、理論的分析と視覚的解釈の両方を通じて、Mamba がグローバルな受容野を実現できることを実証しています。
この研究の発見は二重の貢献をもたらします。
まず、プラグ アンド プレイのシンプルかつ効果的な Mamba モジュールとして、CrackMamba はさまざまなクラック セグメンテーション モデルに統合できる計り知れない可能性を示します。
第二に、提案された革新的な Mamba 設計コンセプトは、Mamba とアテンション メカニズムを統合しており、この研究で調査したように、クラック セグメンテーション ネットワークに限定されない、すべての Mamba ベースのコンピューター ビジョン モデルにとって重要な参考値を保持します。
要約(オリジナル)
Cracks pose safety risks to infrastructure and cannot be overlooked. The prevailing structures in existing crack segmentation networks predominantly consist of CNNs or Transformers. However, CNNs exhibit a deficiency in global modeling capability, hindering the representation to entire crack features. Transformers can capture long-range dependencies but suffer from high and quadratic complexity. Recently, Mamba has garnered extensive attention due to its linear spatial and computational complexity and its powerful global perception. This study explores the representation capabilities of Mamba to crack features. Specifically, this paper uncovers the connection between Mamba and the attention mechanism, providing a profound insight, an attention perspective, into interpreting Mamba and devising a novel Mamba module following the principles of attention blocks, namely CrackMamba. We compare CrackMamba with the most prominent visual Mamba modules, Vim and Vmamba, on two datasets comprising asphalt pavement and concrete pavement cracks, and steel cracks, respectively. The quantitative results show that CrackMamba stands out as the sole Mamba block consistently enhancing the baseline model’s performance across all evaluation measures, while reducing its parameters and computational costs. Moreover, this paper substantiates that Mamba can achieve global receptive fields through both theoretical analysis and visual interpretability. The discoveries of this study offer a dual contribution. First, as a plug-and-play and simple yet effective Mamba module, CrackMamba exhibits immense potential for integration into various crack segmentation models. Second, the proposed innovative Mamba design concept, integrating Mamba with the attention mechanism, holds significant reference value for all Mamba-based computer vision models, not limited to crack segmentation networks, as investigated in this study.
arxiv情報
著者 | Zhili He,Yu-Hsing Wang |
発行日 | 2024-07-22 15:21:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google