GOOD: Exploring Geometric Cues for Detecting Objects in an Open World

要約

我々は、オープンワールドのクラスにとらわれない物体検出、すなわち、限られた数の基本物体クラスから学習して画像中の全ての物体を検出するタスクに取り組んでいる。最新のRGBベースモデルは、学習クラスの過剰適合に悩まされ、しばしば新奇な外観の物体を検出することができない。これは、RGBベースモデルが主に外観の類似性に依存して新規物体を検出するため、テクスチャや識別部分などのショートカットキューを過剰にフィットさせる傾向もあるためである。RGBベースの物体検出器のこれらの欠点を解決するために、我々は、汎用の単眼推定器によって予測される奥行きや法線などの幾何学的な手がかりを取り入れることを提案する。具体的には、幾何学的な手がかりを用いて物体提案ネットワークを学習させ、学習セット中の注釈のない新規物体を擬似的にラベル付けする。その結果、幾何学的手がかりを用いたオープンワールド物体検出器(GOOD)は、新規物体カテゴリに対する検出想起を大幅に向上させ、わずかな学習クラスで既に良好な性能を発揮する。COCOデータセットの学習に単一の「人」クラスを用いた場合、GOODはSOTA法を5.0% AR@100で上回り、相対的に24%改善された。

要約(オリジナル)

We address the task of open-world class-agnostic object detection, i.e., detecting every object in an image by learning from a limited number of base object classes. State-of-the-art RGB-based models suffer from overfitting the training classes and often fail at detecting novel-looking objects. This is because RGB-based models primarily rely on appearance similarity to detect novel objects and are also prone to overfitting short-cut cues such as textures and discriminative parts. To address these shortcomings of RGB-based object detectors, we propose incorporating geometric cues such as depth and normals, predicted by general-purpose monocular estimators. Specifically, we use the geometric cues to train an object proposal network for pseudo-labeling unannotated novel objects in the training set. Our resulting Geometry-guided Open-world Object Detector (GOOD) significantly improves detection recall for novel object categories and already performs well with only a few training classes. Using a single ‘person’ class for training on the COCO dataset, GOOD surpasses SOTA methods by 5.0% AR@100, a relative improvement of 24%.

arxiv情報

著者 Haiwen Huang,Andreas Geiger,Dan Zhang
発行日 2023-02-03 08:31:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク