要約
単一の RGB カメラを使用してオブジェクトの 3 次元の位置と方向を検出することは、多くの重要なアプリケーションを伴うコンピューター ビジョンの基本的なタスクです。
従来、3D オブジェクト検出方法は完全に監視されたセットアップでトレーニングされており、人間による膨大な量のアノテーションが必要ですが、これは手間とコストがかかり、キャプチャされるデータ量が増え続けるにつれてうまく拡張できません。
この論文では、ドメイン固有の人による注釈を使用せずに単眼 RGB カメラの 3D オブジェクト検出器をトレーニングする最初の方法を紹介します。これにより、トレーニングに利用できるデータが桁違いに多くなります。
新たに提案された Canonical Object Space のおかげで、このメソッドはさまざまなデータセットとカメラ設定にわたるデータを活用して単一の 3D 検出器をトレーニングできるだけでなく、これまでの研究とは異なり、これまで見たことのないカメラ設定でもすぐに使用できます。
これらすべては、データとカメラが非常に異種である実際のアプリケーションにとって非常に重要です。
この方法は 2 つの標準的な自動運転データセットに基づいて評価されており、この方法は、私たちの方法とは異なり、依然として 2D 人間による注釈に依存している以前の研究よりも優れています。
要約(オリジナル)
Detecting the three-dimensional position and orientation of objects using a single RGB camera is a foundational task in computer vision with many important applications. Traditionally, 3D object detection methods are trained in a fully-supervised setup, requiring vast amounts of human annotations, which are laborious, costly, and do not scale well with the ever-increasing amounts of data being captured. In this paper, we present the first method to train 3D object detectors for monocular RGB cameras without domain-specific human annotations, thus making orders of magnitude more data available for training. Thanks to newly proposed Canonical Object Space, the method can not only exploit data across a variety of datasets and camera setups to train a single 3D detector, but unlike previous work it also works out of the box in previously unseen camera setups. All this is crucial for practical applications, where the data and cameras are extremely heterogeneous. The method is evaluated on two standard autonomous driving datasets, where it outperforms previous works, which, unlike our method, still rely on 2D human annotations.
arxiv情報
著者 | Jan Skvrna,Lukas Neumann |
発行日 | 2025-01-16 11:35:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google