要約
単一の画像から3Dでシーンやオブジェクトを認識することは、ロボット工学やAR/VRでのアプリケーションを使用したコンピュータービジョンの長年の目標です。
2D認識の場合、大規模なデータセットとスケーラブルなソリューションにより、前例のない進歩がもたらされました。
3Dでは、既存のベンチマークはサイズが小さく、アプローチはいくつかのオブジェクトカテゴリと特定のドメインに特化しています。
都市の運転シーン。
2D認識の成功に動機付けられて、Omni3Dと呼ばれる大きなベンチマークを導入することにより、3Dオブジェクト検出のタスクを再検討します。
Omni3Dは、既存のデータセットを再利用して結合し、300万を超えるインスタンスと97のカテゴリで注釈が付けられた234kの画像を生成します。このような規模での3D検出は、カメラの組み込み関数のバリエーションとシーンおよびオブジェクトタイプの豊富な多様性のために困難です。
統一されたアプローチでカメラとシーンのタイプ全体を一般化するように設計された、CubeR-CNNと呼ばれるモデルを提案します。
Cube R-CNNは、より大きなOmni3Dおよび既存のベンチマークでの以前の作業よりも優れていることを示しています。
最後に、Omni3Dが3Dオブジェクト認識のための強力なデータセットであることを証明し、単一データセットのパフォーマンスを向上させ、事前トレーニングを介して新しい小さなデータセットの学習を加速できることを示します。
要約(オリジナル)
Recognizing scenes and objects in 3D from a single image is a longstanding goal of computer vision with applications in robotics and AR/VR. For 2D recognition, large datasets and scalable solutions have led to unprecedented advances. In 3D, existing benchmarks are small in size and approaches specialize in few object categories and specific domains, e.g. urban driving scenes. Motivated by the success of 2D recognition, we revisit the task of 3D object detection by introducing a large benchmark, called Omni3D. Omni3D re-purposes and combines existing datasets resulting in 234k images annotated with more than 3 million instances and 97 categories.3D detection at such scale is challenging due to variations in camera intrinsics and the rich diversity of scene and object types. We propose a model, called Cube R-CNN, designed to generalize across camera and scene types with a unified approach. We show that Cube R-CNN outperforms prior works on the larger Omni3D and existing benchmarks. Finally, we prove that Omni3D is a powerful dataset for 3D object recognition, show that it improves single-dataset performance and can accelerate learning on new smaller datasets via pre-training.
arxiv情報
著者 | Garrick Brazil,Julian Straub,Nikhila Ravi,Justin Johnson,Georgia Gkioxari |
発行日 | 2022-07-21 17:56:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google