Spatio-channel Attention Blocks for Cross-modal Crowd Counting

要約

群衆計数の研究は、実際のアプリケーションで大きな進歩を遂げましたが、クロスモーダル設定では依然として手ごわい課題です。
ほとんどの既存の方法は、RGB 画像の光学的特徴のみに依存しており、熱画像や深度画像などの他のモダリティの実現可能性を無視しています。
さまざまなモダリティ間の本質的な大きな違いと、モデル アーキテクチャの設計上の選択肢の多様性により、クロスモーダル クラウド カウントがより困難になります。
このホワイト ペーパーでは、どのモダリティ固有のアーキテクチャにも簡単に統合できるクロスモーダル空間チャネル アテンション (CSCA) ブロックを提案します。
CSCA ブロックは、最初にマルチモダリティ間のグローバルな機能的相関関係を空間的にキャプチャし、空間的なクロスモーダルの注意によりオーバーヘッドを減らします。
空間的な注意を払ったクロスモーダル機能は、その後、チャネルごとの適応機能集約によって洗練されます。
私たちの実験では、提案されたブロックは、さまざまなバックボーン ネットワーク全体で一貫して大幅なパフォーマンスの向上を示しており、RGB-T および RGB-D クラウド カウントで最先端の結果が得られています。

要約(オリジナル)

Crowd counting research has made significant advancements in real-world applications, but it remains a formidable challenge in cross-modal settings. Most existing methods rely solely on the optical features of RGB images, ignoring the feasibility of other modalities such as thermal and depth images. The inherently significant differences between the different modalities and the diversity of design choices for model architectures make cross-modal crowd counting more challenging. In this paper, we propose Cross-modal Spatio-Channel Attention (CSCA) blocks, which can be easily integrated into any modality-specific architecture. The CSCA blocks first spatially capture global functional correlations among multi-modality with less overhead through spatial-wise cross-modal attention. Cross-modal features with spatial attention are subsequently refined through adaptive channel-wise feature aggregation. In our experiments, the proposed block consistently shows significant performance improvement across various backbone networks, resulting in state-of-the-art results in RGB-T and RGB-D crowd counting.

arxiv情報

著者 Youjia Zhang,Soyun Choi,Sungeun Hong
発行日 2022-11-14 11:40:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク