FGA: Fourier-Guided Attention Network for Crowd Count Estimation


この論文では、畳み込みベースのアテンション ネットワーク上の既存の研究における非効率なフルスケールのグローバル パターン キャプチャに対処するために設計された群衆数推定のための新しいアテンション メカニズムであるフーリエ誘導アテンション (FGA) を紹介します。
FGA は、高速フーリエ変換 (FFT) を利用することにより、フルスケールのグローバル パターンを含むマルチスケール情報を効率的にキャプチャします。これには、グローバル フィーチャおよび畳み込みに対する空間的注意と、セミグローバルおよびローカル フィーチャに対するチャネルごとの注意が必要です。
FGA のアーキテクチャには、デュアル パス アプローチが含まれます。(1) FFT を通じてフルスケールのグローバル特徴を処理するパス。これにより、周波数領域での情報の効率的な抽出が可能になります。(2) 残りの特徴マップを準レベルで処理するパス。
– 従来の畳み込みとチャネルごとの注意を使用したグローバルおよびローカルの特徴。
このデュアルパス アーキテクチャにより、FGA は周波数と空間情報をシームレスに統合できるようになり、多様な群衆パターンを捕捉する能力が強化されます。
私たちは、CSRNet と CANNet という 2 つの人気のある群衆カウント作業の最後のレイヤーに FGA を適用し、ShanghaiTech-A、ShanghaiTech-B、UCF-CC-50、JHU++ 群衆などのベンチマーク データセットでのモジュールのパフォーマンスを評価します。
この実験では、平均二乗誤差 (MSE) および平均絶対誤差 (MAE) メトリクスに基づいてすべてのデータセットにわたって顕著な改善が見られ、最近の最先端の手法と同等のパフォーマンスが示されています。
さらに、Grad-CAM ヒートマップを活用した定性分析を使用して解釈可能性を示し、群集パターンの捕捉における FGA の有効性を示します。


Crowd counting is gaining societal relevance, particularly in domains of Urban Planning, Crowd Management, and Public Safety. This paper introduces Fourier-guided attention (FGA), a novel attention mechanism for crowd count estimation designed to address the inefficient full-scale global pattern capture in existing works on convolution-based attention networks. FGA efficiently captures multi-scale information, including full-scale global patterns, by utilizing Fast-Fourier Transformations (FFT) along with spatial attention for global features and convolutions with channel-wise attention for semi-global and local features. The architecture of FGA involves a dual-path approach: (1) a path for processing full-scale global features through FFT, allowing for efficient extraction of information in the frequency domain, and (2) a path for processing remaining feature maps for semi-global and local features using traditional convolutions and channel-wise attention. This dual-path architecture enables FGA to seamlessly integrate frequency and spatial information, enhancing its ability to capture diverse crowd patterns. We apply FGA in the last layers of two popular crowd-counting works, CSRNet and CANNet, to evaluate the module’s performance on benchmark datasets such as ShanghaiTech-A, ShanghaiTech-B, UCF-CC-50, and JHU++ crowd. The experiments demonstrate a notable improvement across all datasets based on Mean-Squared-Error (MSE) and Mean-Absolute-Error (MAE) metrics, showing comparable performance to recent state-of-the-art methods. Additionally, we illustrate the interpretability using qualitative analysis, leveraging Grad-CAM heatmaps, to show the effectiveness of FGA in capturing crowd patterns.


著者 Yashwardhan Chaudhuri,Ankit Kumar,Arun Balaji Buduru,Adel Alshamrani
発行日 2024-07-08 16:47:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク