要約
RBG画像からのテクスチャーのないオブジェクトの6Dポーズを推定することは、ロボット工学の重要な問題です。
外観のあいまいさ、回転対称性、重度の閉塞により、シングルビューベースの6Dポーズ推定器は依然として幅広いオブジェクトを処理することができず、マルチビューポーズ推定とこれらの制限に対処する次のベストビュー予測に向けた研究を動機付けます。
この作業では、RGB画像のみを使用して、テクスチャーのないオブジェクトの6Dポーズを推定するための包括的なアクティブな知覚フレームワークを提案します。
私たちのアプローチは、重要なアイデアに基づいて構築されています。6Dポーズ推定を連続した2段階のプロセスに分離すると、精度と効率の両方を大幅に改善できます。
まず、各オブジェクトの3D変換を推定し、RGB画像に固有のスケールと深さのあいまいさを解決します。
次に、これらの推定値を使用して、3D方向を決定するという後続のタスクを簡素化します。
次に、この定式化に基づいて、RGB画像をキャプチャするために次に最適なカメラの視点を予測するアクティブな知覚戦略を導入し、オブジェクトを効果的に削減し、不確実性をもたらし、ポーズの精度を高めます。
パブリックロビデータセットと、作成した透明なオブジェクトデータセットでの方法を評価します。
同じカメラの視点を使用して評価されると、マルチビューのポーズ推定は、最先端のアプローチを大幅に上回ります。
さらに、次のベストビュー戦略を活用することにより、当社の方法は、ヒューリスティックベースのポリシーよりも大幅に少ない視点で高いオブジェクトポーズの精度を達成します。
要約(オリジナル)
Estimating the 6D pose of textureless objects from RBG images is an important problem in robotics. Due to appearance ambiguities, rotational symmetries, and severe occlusions, single-view based 6D pose estimators are still unable to handle a wide range of objects, motivating research towards multi-view pose estimation and next-best-view prediction that addresses these limitations. In this work, we propose a comprehensive active perception framework for estimating the 6D poses of textureless objects using only RGB images. Our approach is built upon a key idea: decoupling the 6D pose estimation into a sequential two-step process can greatly improve both accuracy and efficiency. First, we estimate the 3D translation of each object, resolving scale and depth ambiguities inherent to RGB images. These estimates are then used to simplify the subsequent task of determining the 3D orientation, which we achieve through canonical scale template matching. Building on this formulation, we then introduce an active perception strategy that predicts the next best camera viewpoint to capture an RGB image, effectively reducing object pose uncertainty and enhancing pose accuracy. We evaluate our method on the public ROBI dataset as well as on a transparent object dataset that we created. When evaluated using the same camera viewpoints, our multi-view pose estimation significantly outperforms state-of-the-art approaches. Furthermore, by leveraging our next-best-view strategy, our method achieves high object pose accuracy with substantially fewer viewpoints than heuristic-based policies.
arxiv情報
著者 | Jun Yang,Wenjie Xue,Sahar Ghavidel,Steven L. Waslander |
発行日 | 2025-03-05 18:28:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google