要約
オブジェクトは、カメラの視野内を移動するときに、さまざまな量の遠近歪みを受けます。
単一の画像から 3D を予測するモデルは、多くの場合、対象オブジェクトの周囲のトリミングを処理し、カメラの視野内のオブジェクトの位置を無視します。
この位置情報を無視すると、2D 画像から 3D 推論を行う際の固有のあいまいさがさらに強調され、モデルがトレーニング データに適合することさえできなくなる可能性があることに注意してください。
このあいまいさを軽減するために、画像内の作物の位置に関する情報とカメラ組み込み関数を組み込む Intrinsics-Aware Positional Encoding (KPE) を提案します。
単一画像からの 3D ベンチマークの 3 つの一般的なベンチマークの実験では、NYU での深度予測、KITTI と nuScenes での 3D オブジェクト検出、ARCTIC での多関節オブジェクトの 3D 形状の予測で、KPE の利点が示されています。
要約(オリジナル)
Objects undergo varying amounts of perspective distortion as they move across a camera’s field of view. Models for predicting 3D from a single image often work with crops around the object of interest and ignore the location of the object in the camera’s field of view. We note that ignoring this location information further exaggerates the inherent ambiguity in making 3D inferences from 2D images and can prevent models from even fitting to the training data. To mitigate this ambiguity, we propose Intrinsics-Aware Positional Encoding (KPE), which incorporates information about the location of crops in the image and camera intrinsics. Experiments on three popular 3D-from-a-single-image benchmarks: depth prediction on NYU, 3D object detection on KITTI & nuScenes, and predicting 3D shapes of articulated objects on ARCTIC, show the benefits of KPE.
arxiv情報
| 著者 | Aditya Prakash,Arjun Gupta,Saurabh Gupta |
| 発行日 | 2023-12-11 18:28:55+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google