要約
現在のRGBベースの6次元物体姿勢推定手法は、データセットや実世界のアプリケーションにおいて顕著な性能を達成しています。しかし、単一の2次元画像特徴から6次元姿勢を予測することは、環境の変化やテクスチャのない、あるいは類似した物体表面による攪乱の影響を受けやすい。そのため、RGBベースの手法は、画像特徴と3次元構造特徴の両方を利用するRGBDベースの手法に比べ、一般的に劣る結果となる。本論文では、この性能差を縮めるために、2枚のRGB画像から暗黙の3次元情報を学習する6次元物体姿勢推定の枠組みを提案する。学習した3次元情報と2次元画像特徴量を組み合わせることで、シーンと物体モデルの対応関係をより安定的に確立することができる。RGB画像から3次元情報を学習する方法として、Early-Fusion、Mid-Fusion、Late-Fusionの3つのアプローチを検討した。その結果、物体姿勢推定に有用な3次元キーポイントを最も正確に復元できるのは、中間融合アプローチであることが分かった。実験の結果、本手法は最新のRGBベースの手法を凌駕し、RGBDベースの手法と同等の結果を達成することができた。
要約(オリジナル)
Current RGB-based 6D object pose estimation methods have achieved noticeable performance on datasets and real world applications. However, predicting 6D pose from single 2D image features is susceptible to disturbance from changing of environment and textureless or resemblant object surfaces. Hence, RGB-based methods generally achieve less competitive results than RGBD-based methods, which deploy both image features and 3D structure features. To narrow down this performance gap, this paper proposes a framework for 6D object pose estimation that learns implicit 3D information from 2 RGB images. Combining the learned 3D information and 2D image features, we establish more stable correspondence between the scene and the object models. To seek for the methods best utilizing 3D information from RGB inputs, we conduct an investigation on three different approaches, including Early- Fusion, Mid-Fusion, and Late-Fusion. We ascertain the Mid- Fusion approach is the best approach to restore the most precise 3D keypoints useful for object pose estimation. The experiments show that our method outperforms state-of-the-art RGB-based methods, and achieves comparable results with RGBD-based methods.
arxiv情報
著者 | Jun Wu,Lilu Liu,Yue Wang,Rong Xiong |
発行日 | 2022-07-01 08:22:34+00:00 |
arxivサイト | arxiv_id(pdf) |