Why Existing Multimodal Crowd Counting Datasets Can Lead to Unfulfilled Expectations in Real-World Applications




– 複数のモード(光学的画像とサーマル画像)の同時利用は人混み数の予測において改善につながる。
– しかし、マルチモーダルなモデルがどのように両方のモードから豊富な特徴を抽出するのかはまだ十分に理解されていない。
– マルチモーダルデータの使用は通常モデルの複雑さ、推論時間、メモリ要件を増加させるため、マルチモーダルとモノモーダルモデルの違いと利点を調べることが重要である。
– この論文では、全ての利用可能なマルチモーダルデータセットを使用して、モノモーダルとマルチモーダルモデルの違いを調査する。
– これを行うために、モノモーダル集団カウントングに関する現在の研究状況を考慮したモノモーダルアーキテクチャを設計し、異なるマルチモーダル学習戦略を使用して複数のマルチモーダルアーキテクチャが開発された。
– マルチモーダルアーキテクチャの主要なコンポーネントは、一般的な集団カウンティングにおいてマルチモーダルモデルがモノモーダルよりも優れているかどうかを調べることができるように使用された。
– 既存のデータセットからはこの問いに対する一般的な答えが得られないことが判明した。
– 光学的な画像の明るさと人混みの数の関係を分析し、各データセットについての注釈を検討することで、既存のデータセットにはサーマル画像に偏りがあることがわかった。
– この問いに答えることが将来の現実世界の集団カウントにとって重要であるため、この論文では一般的にマルチモーダルモデルが優れているかどうかを調べるための潜在的なデータセットの基準を確立している。


More information leads to better decisions and predictions, right? Confirming this hypothesis, several studies concluded that the simultaneous use of optical and thermal images leads to better predictions in crowd counting. However, the way multimodal models extract enriched features from both modalities is not yet fully understood. Since the use of multimodal data usually increases the complexity, inference time, and memory requirements of the models, it is relevant to examine the differences and advantages of multimodal compared to monomodal models. In this work, all available multimodal datasets for crowd counting are used to investigate the differences between monomodal and multimodal models. To do so, we designed a monomodal architecture that considers the current state of research on monomodal crowd counting. In addition, several multimodal architectures have been developed using different multimodal learning strategies. The key components of the monomodal architecture are also used in the multimodal architectures to be able to answer whether multimodal models perform better in crowd counting in general. Surprisingly, no general answer to this question can be derived from the existing datasets. We found that the existing datasets hold a bias toward thermal images. This was determined by analyzing the relationship between the brightness of optical images and crowd count as well as examining the annotations made for each dataset. Since answering this question is important for future real-world applications of crowd counting, this paper establishes criteria for a potential dataset suitable for answering whether multimodal models perform better in crowd counting in general.


著者 Martin Thißen,Elke Hergenröther
発行日 2023-04-13 11:09:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク