要約
私たちは、3D 正規化オブジェクト座標空間 (NOCS) マップ、オブジェクト マスク、屋内および屋外シーンの 3D 境界ボックス アノテーションを備えた大規模な単眼データセットである OmniNOCS を提案します。
OmniNOCS には、既存の NOCS データセット (NOCS-Real275、Wild6D) に比べて 20 倍のオブジェクト クラスと 200 倍のインスタンスがあります。
OmniNOCS を使用して、さまざまなクラスにわたる 2D オブジェクト検出から正確な NOCS、インスタンス マスク、ポーズを予測できる、新しいトランスベースの単眼 NOCS 予測モデル (NOCSformer) をトレーニングします。
これは、2D ボックスでプロンプトを表示したときに幅広いクラスに一般化できる最初の NOCS モデルです。
3D 指向のバウンディング ボックス予測のタスクでモデルを評価し、Cube R-CNN などの最先端の 3D 検出手法と同等の結果を達成します。
他の 3D 検出方法とは異なり、私たちのモデルは詳細かつ正確な 3D オブジェクトの形状とセグメンテーションも提供します。
私たちは、OmniNOCS に基づいた NOCS 予測タスクの新しいベンチマークを提案します。これが、この分野での将来の研究の有用なベースラインとして機能することを期待しています。
データセットとコードはプロジェクト Web サイト https://omninocs.github.io にあります。
要約(オリジナル)
We propose OmniNOCS, a large-scale monocular dataset with 3D Normalized Object Coordinate Space (NOCS) maps, object masks, and 3D bounding box annotations for indoor and outdoor scenes. OmniNOCS has 20 times more object classes and 200 times more instances than existing NOCS datasets (NOCS-Real275, Wild6D). We use OmniNOCS to train a novel, transformer-based monocular NOCS prediction model (NOCSformer) that can predict accurate NOCS, instance masks and poses from 2D object detections across diverse classes. It is the first NOCS model that can generalize to a broad range of classes when prompted with 2D boxes. We evaluate our model on the task of 3D oriented bounding box prediction, where it achieves comparable results to state-of-the-art 3D detection methods such as Cube R-CNN. Unlike other 3D detection methods, our model also provides detailed and accurate 3D object shape and segmentation. We propose a novel benchmark for the task of NOCS prediction based on OmniNOCS, which we hope will serve as a useful baseline for future work in this area. Our dataset and code will be at the project website: https://omninocs.github.io.
arxiv情報
著者 | Akshay Krishnan,Abhijit Kundu,Kevis-Kokitsi Maninis,James Hays,Matthew Brown |
発行日 | 2024-07-11 17:49:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google