Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference

要約

人間は、単一のクエリと参照画像のペアだけが与えられれば、ラベルやトレーニングを必要とせずに、目に見えないオブジェクトの相対的な姿勢を簡単に推測できます。
これはおそらく、(i) 単一画像からの 3D/2.5D 形状認識、(ii) レンダリングと比較のシミュレーション、および (iii) (粗い) 参照クエリ対応を提供するための豊富なセマンティック キュー認識を組み込むことによって達成されます。
既存の手法は、(i) 3D CAD モデルまたは適切にキャリブレーションされた複数の画像によって、および (ii) 特定のオブジェクトについてネットワークをトレーニングすることによって実装されていますが、これには労力を要するグラウンドトゥルースのラベル付けと退屈なトレーニングが必要であり、一般化において課題が生じる可能性があります。
さらに、(iii) からの大まかな対応により、実質的なポーズの違い/オクルージョンの下で重複しない部分がフィルタリングされて比較プロセスが強化されるにもかかわらず、(ii) は (ii) のパラダイムではあまり活用されませんでした。
これを動機として、我々は、(i) RGB-D リファレンスからの 2.5D 形状、(ii) 既製の微分可能なレンダラー、および (iii) セマンティックを詳細に説明することにより、新しい 3D 一般化可能な相対姿勢推定方法を提案します。
DINOv2 などの事前トレーニング済みモデルからのキュー。
具体的には、微分可能レンダラーは、RGB によってテクスチャ化された 2.5D 回転可能メッシュとセマンティック マップ (RGB 入力から DINOv2 によって取得) を取得し、新しい回転ビューの下で新しい RGB マップとセマンティック マップを (背面カリングを使用して) レンダリングします。
洗練の損失は、レンダリングされた RGB マップとセマンティック マップをクエリ マップと比較し、微分可能レンダラーを通じて勾配を逆伝播して 3D 相対姿勢を洗練することで発生します。
その結果、私たちの方法は、ラベル/トレーニングなしで、単一の RGB-D 参照のみが与えられた場合に、目に見えないオブジェクトに簡単に適用できます。
LineMOD、LM-O、YCB-V に関する広範な実験により、特に厳密な Acc@5/10/15{\deg} メトリクスと困難なデータセット間設定の下で、トレーニング不要の手法が SOTA 教師あり手法よりも大幅に優れていることが示されました。

要約(オリジナル)

Humans can easily deduce the relative pose of an unseen object, without label/training, given only a single query-reference image pair. This is arguably achieved by incorporating (i) 3D/2.5D shape perception from a single image, (ii) render-and-compare simulation, and (iii) rich semantic cue awareness to furnish (coarse) reference-query correspondence. Existing methods implement (i) by a 3D CAD model or well-calibrated multiple images and (ii) by training a network on specific objects, which necessitate laborious ground-truth labeling and tedious training, potentially leading to challenges in generalization. Moreover, (iii) was less exploited in the paradigm of (ii), despite that the coarse correspondence from (iii) enhances the compare process by filtering out non-overlapped parts under substantial pose differences/occlusions. Motivated by this, we propose a novel 3D generalizable relative pose estimation method by elaborating (i) with a 2.5D shape from an RGB-D reference, (ii) with an off-the-shelf differentiable renderer, and (iii) with semantic cues from a pretrained model like DINOv2. Specifically, our differentiable renderer takes the 2.5D rotatable mesh textured by the RGB and the semantic maps (obtained by DINOv2 from the RGB input), then renders new RGB and semantic maps (with back-surface culling) under a novel rotated view. The refinement loss comes from comparing the rendered RGB and semantic maps with the query ones, back-propagating the gradients through the differentiable renderer to refine the 3D relative pose. As a result, our method can be readily applied to unseen objects, given only a single RGB-D reference, without label/training. Extensive experiments on LineMOD, LM-O, and YCB-V show that our training-free method significantly outperforms the SOTA supervised methods, especially under the rigorous Acc@5/10/15{\deg} metrics and the challenging cross-dataset settings.

arxiv情報

著者 Yuan Gao,Yajing Luo,Junhong Wang,Kui Jia,Gui-Song Xia
発行日 2024-06-26 16:01:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク