Open-Set Object Detection Using Classification-free Object Proposal and Instance-level Contrastive Learning

要約

既知および未知の物体の両方を検出することは、非構造化環境におけるロボット操作の基本スキルである。オープンセット物体検出(OSOD)は、物体と背景の分離と、オープンセット物体の分類という2つのサブタスクからなるこの問題を扱う有望な方向性である。本論文では、困難なOSODに対処するためのOpenset RCNNを提案する。第一のサブタスクにおける未知の物体と背景の曖昧性を解消するために、我々は、分類に依存しない領域提案ネットワーク(CF-RPN)を用いることを提案する。CF-RPNは、物体の位置と形状を手がかりに、各領域の物体らしさのスコアを推定し、学習カテゴリへのオーバーフィッティングを防ぐ。第二のサブタスクで未知の物体を識別するために、我々は、プロトタイプ学習ネットワーク(PLN)によって達成される潜在空間において、既知のカテゴリの相補的領域を用いてそれらを表現することを提案する。PLNは、潜在空間への提案を符号化するために、インスタンスレベルの対照学習を行い、各既知カテゴリに対するプロトタイプを中心としたコンパクトな領域を構築する。さらに、未知の物体の検出性能は、一般的に用いられる物体検出データセットが完全な注釈付きでない状況では、偏りなく評価できないことに注意する。そこで、完全な注釈付きのロボット把持ポーズ検出データセットであるGraspNet-1billionを再編成することで、新たなベンチマークを導入する。広範な実験により、我々の手法の利点を実証する。最後に、我々のOpenset RCNNが、乱雑な環境におけるロボットの再配置タスクをサポートするオープンセット知覚能力をロボットに与えることができることを示す。詳細はhttps://sites.google.com/view/openset-rcnn/。

要約(オリジナル)

Detecting both known and unknown objects is a fundamental skill for robot manipulation in unstructured environments. Open-set object detection (OSOD) is a promising direction to handle the problem consisting of two subtasks: objects and background separation, and open-set object classification. In this paper, we present Openset RCNN to address the challenging OSOD. To disambiguate unknown objects and background in the first subtask, we propose to use classification-free region proposal network (CF-RPN) which estimates the objectness score of each region purely using cues from object’s location and shape preventing overfitting to the training categories. To identify unknown objects in the second subtask, we propose to represent them using the complementary region of known categories in a latent space which is accomplished by a prototype learning network (PLN). PLN performs instance-level contrastive learning to encode proposals to a latent space and builds a compact region centering with a prototype for each known category. Further, we note that the detection performance of unknown objects can not be unbiasedly evaluated on the situation that commonly used object detection datasets are not fully annotated. Thus, a new benchmark is introduced by reorganizing GraspNet-1billion, a robotic grasp pose detection dataset with complete annotation. Extensive experiments demonstrate the merits of our method. We finally show that our Openset RCNN can endow the robot with an open-set perception ability to support robotic rearrangement tasks in cluttered environments. More details can be found in https://sites.google.com/view/openset-rcnn/

arxiv情報

著者 Zhongxiang Zhou,Yifei Yang,Yue Wang,Rong Xiong
発行日 2023-12-04 02:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク