A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd Counting

要約

群衆カウントは現実世界の状況に直接応用できるため、計算効率とパフォーマンスが重要になります。
ただし、以前の方法のほとんどは、展開を制限する重いバックボーンと複雑なダウンストリーム アーキテクチャに依存しています。
この課題に対処し、群衆カウント モデルの汎用性を高めるために、2 つの軽量モデルを導入しました。
これらのモデルは、同じダウンストリーム アーキテクチャを維持しながら、MobileNet と MobileViT という 2 つの異なるバックボーンを組み込みます。
Adjacent Feature Fusion を活用して、事前トレーニング モデル (PTM) からさまざまなスケールの特徴を抽出し、その後これらの特徴をシームレスに組み合わせます。
このアプローチにより、当社のモデルはコンパクトで効率的な設計を維持しながら、パフォーマンスの向上を実現できます。
ShanghaiTech-A、ShanghaiTech-B、およびUCF-CC-50データセットで、私たちが提案したモデルを以前に利用可能な最先端(SOTA)手法と比較したところ、最も計算効率の高いモデルでありながら、同等の結果が得られました。
最後に、モデルの有効性を示すための比較研究、広範なアブレーション研究と枝刈りを紹介します。

要約(オリジナル)

Crowd counting finds direct applications in real-world situations, making computational efficiency and performance crucial. However, most of the previous methods rely on a heavy backbone and a complex downstream architecture that restricts the deployment. To address this challenge and enhance the versatility of crowd-counting models, we introduce two lightweight models. These models maintain the same downstream architecture while incorporating two distinct backbones: MobileNet and MobileViT. We leverage Adjacent Feature Fusion to extract diverse scale features from a Pre-Trained Model (PTM) and subsequently combine these features seamlessly. This approach empowers our models to achieve improved performance while maintaining a compact and efficient design. With the comparison of our proposed models with previously available state-of-the-art (SOTA) methods on ShanghaiTech-A ShanghaiTech-B and UCF-CC-50 dataset, it achieves comparable results while being the most computationally efficient model. Finally, we present a comparative study, an extensive ablation study, along with pruning to show the effectiveness of our models.

arxiv情報

著者 Yashwardhan Chaudhuri,Ankit Kumar,Orchid Chetia Phukan,Arun Balaji Buduru
発行日 2024-01-11 15:13:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク