要約
群衆カウントは現実世界の状況に直接応用できるため、計算効率とパフォーマンスが重要になります。
ただし、以前の方法のほとんどは、展開を制限する重いバックボーンと複雑なダウンストリーム アーキテクチャに依存しています。
この課題に対処し、群衆カウント モデルの汎用性を高めるために、2 つの軽量モデルを導入しました。
これらのモデルは、同じダウンストリーム アーキテクチャを維持しながら、MobileNet と MobileViT という 2 つの異なるバックボーンを組み込みます。
Adjacent Feature Fusion を活用して、事前トレーニング モデル (PTM) からさまざまなスケールの特徴を抽出し、その後これらの特徴をシームレスに組み合わせます。
このアプローチにより、当社のモデルはコンパクトで効率的な設計を維持しながら、パフォーマンスの向上を実現できます。
ShanghaiTech-A、ShanghaiTech-B、およびUCF-CC-50データセットで、私たちが提案したモデルを以前に利用可能な最先端(SOTA)手法と比較したところ、最も計算効率の高いモデルでありながら、同等の結果が得られました。
最後に、モデルの有効性を示すための比較研究、広範なアブレーション研究と枝刈りを紹介します。
要約(オリジナル)
Crowd counting finds direct applications in real-world situations, making computational efficiency and performance crucial. However, most of the previous methods rely on a heavy backbone and a complex downstream architecture that restricts the deployment. To address this challenge and enhance the versatility of crowd-counting models, we introduce two lightweight models. These models maintain the same downstream architecture while incorporating two distinct backbones: MobileNet and MobileViT. We leverage Adjacent Feature Fusion to extract diverse scale features from a Pre-Trained Model (PTM) and subsequently combine these features seamlessly. This approach empowers our models to achieve improved performance while maintaining a compact and efficient design. With the comparison of our proposed models with previously available state-of-the-art (SOTA) methods on ShanghaiTech-A ShanghaiTech-B and UCF-CC-50 dataset, it achieves comparable results while being the most computationally efficient model. Finally, we present a comparative study, an extensive ablation study, along with pruning to show the effectiveness of our models.
arxiv情報
著者 | Yashwardhan Chaudhuri,Ankit Kumar,Orchid Chetia Phukan,Arun Balaji Buduru |
発行日 | 2024-01-11 15:13:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google