Towards Learning Monocular 3D Object Localization From 2D Labels using the Physical Laws of Motion

要約

我々は、2D ラベルのみを使用して、単一のキャリブレーション済みカメラからの単一画像で 3D オブジェクトの位置を正確に特定するための新しい方法を提案します。
高価な 3D ラベルは必要ありません。
したがって、3D ラベルを使用する代わりに、オブジェクトの動きの物理的な知識とともに、注釈を付けやすい 2D ラベルを使用してモデルをトレーニングします。
この情報が与えられると、トレーニング中にこの情報を一度も見たことがなくても、モデルは潜在的な 3 次元を推論できます。
私たちの手法は合成データセットと現実世界のデータセットの両方で評価され、実際のデータでの実験では平均距離誤差わずか 6 cm を達成することができました。
この結果は、トレーニング用の 3D データを収集することが不可能な場合に、3D オブジェクトの位置推定を学習するためのステップとしてこの方法が可能性があることを示しています。

要約(オリジナル)

We present a novel method for precise 3D object localization in single images from a single calibrated camera using only 2D labels. No expensive 3D labels are needed. Thus, instead of using 3D labels, our model is trained with easy-to-annotate 2D labels along with the physical knowledge of the object’s motion. Given this information, the model can infer the latent third dimension, even though it has never seen this information during training. Our method is evaluated on both synthetic and real-world datasets, and we are able to achieve a mean distance error of just 6 cm in our experiments on real data. The results indicate the method’s potential as a step towards learning 3D object location estimation, where collecting 3D data for training is not feasible.

arxiv情報

著者 Daniel Kienzle,Julian Lorenz,Katja Ludwig,Rainer Lienhart
発行日 2023-11-29 14:33:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク