Deep Learning Techniques for Visual Counting

要約

この学位論文では、静止画像やビデオフレーム内の歩行者、細胞、車両などのオブジェクトを数えるためのディープラーニング(DL)技術を調査し、強化しました。特に、我々は、現在のDLベースのソリューションを訓練するために必要なデータの不足に関連する課題に取り組んだ。ラベリングの予算が限られている中、データの不足は、ニューラルネットワークの教師あり学習による既存のソリューションのスケーラビリティを妨げ、また、これらのアルゴリズムに新しいシナリオを提示したときに推論時の性能を大きく低下させる原因となっている、依然として未解決の問題である。我々は、この問題に対して、自動的にラベル付けされた仮想環境から収集したデータセットの収集、学習データとテストデータの分布間に存在するドメインギャップを緩和することを目的としたドメイン適応戦略の提案、弱いラベル付けデータシナリオ、すなわち、複数の注釈者間の無視できない不一致がある場合のカウント戦略の提案など、いくつかの補完的な側面から解決策を導入しました。さらに、限られた電力リソースの環境下で畳み込みニューラルネットワークベースの技術を採用することから生じる自明ではない工学的課題に取り組み、組み込み型ビジョンシステム(画像を取り込み精緻化できる限られた計算能力を備えたデバイス)に直接搭載された車両や歩行者を計数するソリューションを紹介しました。

要約(オリジナル)

In this dissertation, we investigated and enhanced Deep Learning (DL) techniques for counting objects, like pedestrians, cells or vehicles, in still images or video frames. In particular, we tackled the challenge related to the lack of data needed for training current DL-based solutions. Given that the budget for labeling is limited, data scarcity still represents an open problem that prevents the scalability of existing solutions based on the supervised learning of neural networks and that is responsible for a significant drop in performance at inference time when new scenarios are presented to these algorithms. We introduced solutions addressing this issue from several complementary sides, collecting datasets gathered from virtual environments automatically labeled, proposing Domain Adaptation strategies aiming at mitigating the domain gap existing between the training and test data distributions, and presenting a counting strategy in a weakly labeled data scenario, i.e., in the presence of non-negligible disagreement between multiple annotators. Moreover, we tackled the non-trivial engineering challenges coming out of the adoption of Convolutional Neural Network-based techniques in environments with limited power resources, introducing solutions for counting vehicles and pedestrians directly onboard embedded vision systems, i.e., devices equipped with constrained computational capabilities that can capture images and elaborate them.

arxiv情報

著者 Luca Ciampi
発行日 2022-06-08 16:29:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク