A Unified Object Counting Network with Object Occupation Prior

要約

カウント タスクは、多くのアプリケーション (群衆カウント、交通統計など) で基本的な役割を果たし、さまざまな密度のオブジェクトの数を予測することを目的としています。
既存のオブジェクト計数タスクは、単一のオブジェクト クラス用に設計されています。
ただし、現実の世界では、新しいクラスを持つ新しく入ってくるデータに遭遇することは避けられません。
このシナリオを \textit{進化するオブジェクトのカウント} と名付けます。
この論文では、最初の進化する物体計数データセットを構築し、このタスクに対処する最初の試みとして統合物体計数ネットワークを提案します。
提案されたモデルは、クラスに依存しないマスク モジュールとクラス増分モジュールという 2 つの主要なコンポーネントで構成されます。
クラスに依存しないマスク モジュールは、クラスに依存しないバイナリ マスクを予測することによって、一般的なオブジェクトの占有を事前に学習します (たとえば、1 は画像内の考慮中の位置にオブジェクトが存在することを示し、そうでない場合は 0)。
クラス増分モジュールは、新たに登場するクラスを処理するために使用され、密度マップ予測のための識別クラス ガイダンスを提供します。
クラスに依存しないマスク モジュールと画像特徴抽出器の出力を組み合わせて、最終的な密度マップを予測します。
新しいクラスが登場すると、まずクラス増分モジュールの最後の回帰層と分類層に新しいニューラル ノードを追加します。
次に、モデルを最初から再トレーニングするのではなく、知識の蒸留を利用して、モデルが以前のオブジェクト クラスについてすでに学習したことを記憶できるようにします。
また、サポート サンプル バンクを使用して、各クラスの少数の典型的なトレーニング サンプルを保存します。これは、モデルが古いデータの重要な情報を忘れることを防ぐために使用されます。
この設計により、モデルは大規模な再トレーニングを行わずに、すでに確認されているデータで良好なパフォーマンスを維持しながら、新たに登場するクラスに効率的かつ効果的に適応できます。
収集されたデータセットに対する広範な実験により、良好なパフォーマンスが実証されました。

要約(オリジナル)

The counting task, which plays a fundamental role in numerous applications (e.g., crowd counting, traffic statistics), aims to predict the number of objects with various densities. Existing object counting tasks are designed for a single object class. However, it is inevitable to encounter newly coming data with new classes in our real world. We name this scenario as \textit{evolving object counting}. In this paper, we build the first evolving object counting dataset and propose a unified object counting network as the first attempt to address this task. The proposed model consists of two key components: a class-agnostic mask module and a class-incremental module. The class-agnostic mask module learns generic object occupation prior via predicting a class-agnostic binary mask (e.g., 1 denotes there exists an object at the considering position in an image and 0 otherwise). The class-incremental module is used to handle new coming classes and provides discriminative class guidance for density map prediction. The combined outputs of class-agnostic mask module and image feature extractor are used to predict the final density map. When new classes come, we first add new neural nodes into the last regression and classification layers of class-incremental module. Then, instead of retraining the model from scratch, we utilize knowledge distillation to help the model remember what have already learned about previous object classes. We also employ a support sample bank to store a small number of typical training samples of each class, which are used to prevent the model from forgetting key information of old data. With this design, our model can efficiently and effectively adapt to new coming classes while keeping good performance on already seen data without large-scale retraining. Extensive experiments on the collected dataset demonstrate the favorable performance.

arxiv情報

著者 Shengqin Jiang,Qing Wang,Fengna Cheng,Yuankai Qi,Qingshan Liu
発行日 2023-06-30 12:26:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク