HASSOD: Hierarchical Adaptive Self-Supervised Object Detection

要約

人間の視覚認識システムは、明示的な監視なしに学習することと、物体の部分から全体への構成を理解することで、並外れた能力を発揮する。この2つの能力から着想を得て、我々は階層的適応的自己教師付き物体検出(HASSOD)を提案する。HASSODは、人間の監視なしに物体を検出し、その構成を理解することを学習する新しいアプローチである。HASSODは階層的適応クラスタリング戦略を採用し、自己教師付き視覚表現に基づいて領域をオブジェクトマスクにグループ化し、画像あたりのオブジェクト数を適応的に決定する。さらにHASSODは、マスク間のカバレッジ関係を分析し、ツリー構造を構築することで、オブジェクトの構成上の階層レベルを特定する。この追加の自己教師付き学習タスクは、検出性能の向上と解釈可能性の向上につながる。最後に、我々は先行手法で利用されている非効率的な複数ラウンドの自己学習プロセスを放棄し、代わりに半教師付き学習からのMean Teacherフレームワークを適応させることで、よりスムーズで効率的な学習プロセスを実現する。一般的な画像データセットに対する広範な実験を通して、我々はHASSODが既存の手法よりも優れていることを実証し、これにより自己教師付き物体検出の技術水準を向上させる。特に、LVISではマスクARを20.2から22.5に、SA-1Bでは17.0から26.0に改善した。プロジェクトページ: https://HASSOD-NeurIPS23.github.io.

要約(オリジナル)

The human visual perception system demonstrates exceptional capabilities in learning without explicit supervision and understanding the part-to-whole composition of objects. Drawing inspiration from these two abilities, we propose Hierarchical Adaptive Self-Supervised Object Detection (HASSOD), a novel approach that learns to detect objects and understand their compositions without human supervision. HASSOD employs a hierarchical adaptive clustering strategy to group regions into object masks based on self-supervised visual representations, adaptively determining the number of objects per image. Furthermore, HASSOD identifies the hierarchical levels of objects in terms of composition, by analyzing coverage relations between masks and constructing tree structures. This additional self-supervised learning task leads to improved detection performance and enhanced interpretability. Lastly, we abandon the inefficient multi-round self-training process utilized in prior methods and instead adapt the Mean Teacher framework from semi-supervised learning, which leads to a smoother and more efficient training process. Through extensive experiments on prevalent image datasets, we demonstrate the superiority of HASSOD over existing methods, thereby advancing the state of the art in self-supervised object detection. Notably, we improve Mask AR from 20.2 to 22.5 on LVIS, and from 17.0 to 26.0 on SA-1B. Project page: https://HASSOD-NeurIPS23.github.io.

arxiv情報

著者 Shengcao Cao,Dhiraj Joshi,Liang-Yan Gui,Yu-Xiong Wang
発行日 2024-02-05 18:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク