要約
深層学習の急速な発展により、RGB 画像と熱画像の両方を組み合わせた顕著な物体の検出が大幅に向上しました。
ただし、既存の深層学習ベースのモデルには 2 つの大きな欠点があります。
まず、二次複雑さを伴う Transformer ベースのモデルの計算とメモリの要求は、特に高解像度のバイモーダル特徴融合を処理する場合に耐え難いものになります。
第 2 に、たとえ学習が理想的な解に収束したとしても、予測とグランド トゥルースの間には周波数ギャップが残ります。
したがって、我々は、RGB および熱画像のバイモーダル情報を学習するための、純粋に高速なフーリエ変換ベースのモデル、つまりディープ フーリエ埋め込みネットワーク (DFENet) を提案します。
一方で、高速フーリエ変換は、複雑さを抑えながらグローバルな依存関係を効率的にフェッチします。
これに触発されて、私たちは、RGB と熱モダリティの間の周波数ギャップを多次元表現の強化と融合するために、モーダルに調整された知覚の注意を設計します。
デコード中に信頼性の高い詳細情報を取得するために、低レベルの特徴を深く分解することでオブジェクトのエッジを明確にする周波数分解エッジ認識モジュール (FEM) を設計します。
さらに、提案されたフーリエ残差チャネル アテンション ブロックを各デコーダ層に装備して、チャネルのグローバルな関係を調整しながら高周波情報を優先します。
一方、周波数ギャップを最小化する方向に FEM を導くために、コフォーカス周波数損失 (CFL) を提案します。
CFL は、フーリエ領域のバイモーダル エッジ情報を相互参照することにより、エッジ周波数の再構築中にハード周波数を動的に重み付けします。
このエッジ特徴の周波数レベルの改良は、最終的なピクセルレベルの予測の品質にさらに貢献します。
4 つのバイモーダル顕著物体検出ベンチマーク データセットに関する広範な実験により、私たちが提案した DFENet が 12 の既存の最先端モデルを上回るパフォーマンスを示しています。
要約(オリジナル)
The rapid development of deep learning provides a significant improvement of salient object detection combining both RGB and thermal images. However, existing deep learning-based models suffer from two major shortcomings. First, the computation and memory demands of Transformer-based models with quadratic complexity are unbearable, especially in handling high-resolution bi-modal feature fusion. Second, even if learning converges to an ideal solution, there remains a frequency gap between the prediction and ground truth. Therefore, we propose a purely fast Fourier transform-based model, namely deep Fourier-embedded network (DFENet), for learning bi-modal information of RGB and thermal images. On one hand, fast Fourier transform efficiently fetches global dependencies with low complexity. Inspired by this, we design modal-coordinated perception attention to fuse the frequency gap between RGB and thermal modalities with multi-dimensional representation enhancement. To obtain reliable detailed information during decoding, we design the frequency-decomposed edge-aware module (FEM) to clarify object edges by deeply decomposing low-level features. Moreover, we equip proposed Fourier residual channel attention block in each decoder layer to prioritize high-frequency information while aligning channel global relationships. On the other hand, we propose co-focus frequency loss (CFL) to steer FEM towards minimizing the frequency gap. CFL dynamically weights hard frequencies during edge frequency reconstruction by cross-referencing the bi-modal edge information in the Fourier domain. This frequency-level refinement of edge features further contributes to the quality of the final pixel-level prediction. Extensive experiments on four bi-modal salient object detection benchmark datasets demonstrate our proposed DFENet outperforms twelve existing state-of-the-art models.
arxiv情報
著者 | Pengfei Lyu,Xiaosheng Yu,Chengdong Wu,Jagath C. Rajapakse |
発行日 | 2024-11-27 14:55:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google