要約
単一のRGBカメラからのオブジェクト3Dの位置と方向を推測することは、多くの重要なアプリケーションを備えたコンピュータービジョンの基本的なタスクです。
伝統的に、3Dオブジェクト検出方法は完全に監視されたセットアップでトレーニングされており、Lidarと膨大な量の人間の注釈が必要であり、面倒で費用がかかり、キャプチャされている量のデータとは十分にスケーリングしません。
ドメイン固有の人間の注釈なしで、単一のRGBカメラから3Dオブジェクト検出器をトレーニングする新しい方法を提示し、トレーニングに利用可能なより多くのデータを提供します。
このメソッドは、新たに提案されたローカルオブジェクトモーションモデルを使用して、後続のフレーム間でオブジェクトの移動ソースを解き放ち、以前の作業よりも約700倍高速であり、カメラの焦点距離の違いを複数のデータセットを集約するために補正します。
この方法は3つのパブリックデータセットで評価され、人間のラベルを使用していないにもかかわらず、事前の作業を大幅に上回ることができます。
また、完全に監視されたトレーニングのためのトレーニング前のツールとしての汎用性を示しており、複数のデータセットからの擬似ラベルを組み合わせることで、単一のデータセットからの人間のラベルを使用することに匹敵する精度が得られることを示しています。
ソースコードとモデルはまもなく公開されます。
要約(オリジナル)
Inferring object 3D position and orientation from a single RGB camera is a foundational task in computer vision with many important applications. Traditionally, 3D object detection methods are trained in a fully-supervised setup, requiring LiDAR and vast amounts of human annotations, which are laborious, costly, and do not scale well with the ever-increasing amounts of data being captured. We present a novel method to train a 3D object detector from a single RGB camera without domain-specific human annotations, making orders of magnitude more data available for training. The method uses newly proposed Local Object Motion Model to disentangle object movement source between subsequent frames, is approximately 700 times faster than previous work and compensates camera focal length differences to aggregate multiple datasets. The method is evaluated on three public datasets, where despite using no human labels, it outperforms prior work by a significant margin. It also shows its versatility as a pre-training tool for fully-supervised training and shows that combining pseudo-labels from multiple datasets can achieve comparable accuracy to using human labels from a single dataset. The source code and model will be published soon.
arxiv情報
著者 | Jan Skvrna,Lukas Neumann |
発行日 | 2025-03-10 12:27:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google