要約
オープン ワールド クラスに依存しないオブジェクト検出のタスクに対処します。つまり、限られた数の基本オブジェクト クラスから学習することにより、画像内のすべてのオブジェクトを検出します。
最先端の RGB ベースのモデルは、トレーニング クラスのオーバーフィッティングに悩まされ、斬新なオブジェクトの検出に失敗することがよくあります。
これは、RGB ベースのモデルが主に外観の類似性に依存して新しいオブジェクトを検出し、テクスチャや識別部分などの近道の手がかりをオーバーフィッティングする傾向があるためです。
RGB ベースのオブジェクト検出器のこれらの欠点に対処するために、汎用の単眼推定器によって予測される、深度や法線などの幾何学的手がかりを組み込むことを提案します。
具体的には、幾何学的手がかりを使用して、トレーニングセット内の注釈のない新しいオブジェクトを疑似ラベル付けするためのオブジェクト提案ネットワークをトレーニングします。
結果として得られた Geometry-guided Open-world Object Detector (GOOD) は、新しいオブジェクト カテゴリの検出リコールを大幅に改善し、わずか数回のトレーニング クラスで十分に機能します。
COCO データセットでのトレーニングに単一の「人」クラスを使用すると、GOOD は SOTA メソッドを 5.0% AR@100 で上回り、24% の相対的な改善になります。
要約(オリジナル)
We address the task of open-world class-agnostic object detection, i.e., detecting every object in an image by learning from a limited number of base object classes. State-of-the-art RGB-based models suffer from overfitting the training classes and often fail at detecting novel-looking objects. This is because RGB-based models primarily rely on appearance similarity to detect novel objects and are also prone to overfitting short-cut cues such as textures and discriminative parts. To address these shortcomings of RGB-based object detectors, we propose incorporating geometric cues such as depth and normals, predicted by general-purpose monocular estimators. Specifically, we use the geometric cues to train an object proposal network for pseudo-labeling unannotated novel objects in the training set. Our resulting Geometry-guided Open-world Object Detector (GOOD) significantly improves detection recall for novel object categories and already performs well with only a few training classes. Using a single ‘person’ class for training on the COCO dataset, GOOD surpasses SOTA methods by 5.0% AR@100, a relative improvement of 24%.
arxiv情報
著者 | Haiwen Huang,Andreas Geiger,Dan Zhang |
発行日 | 2022-12-22 14:13:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google