FoundPose: Unseen Object Pose Estimation with Foundation Features

要約

私たちは、単一の RGB 画像から目に見えない剛体オブジェクトの 6D 姿勢推定方法である FoundPose を提案します。
この方法では、オブジェクトの 3D モデルが利用可能であることを前提としていますが、オブジェクト固有のトレーニングは必要ありません。
これは、優れた一般化機能を備えた最近のビジョン基盤モデルである DINOv2 を基盤とすることで実現されます。
オンライン姿勢推定ステージは、レンダリングされたオブジェクト テンプレートから抽出された DINOv2 パッチ フィーチャから短いオンボーディング ステージ中に構築される最小限のオブジェクト表現によってサポートされます。
オブジェクト セグメンテーション マスクを含むクエリ画像が与えられると、FoundPose はまず、DINOv2 ベースのバッグ オブ ワード アプローチによって、似たようなテンプレートをいくつか迅速に取得します。
次に、クエリ画像と取得したテンプレートの間で DINOv2 パッチの特徴を照合することによって確立された 2D-3D 対応関係から姿勢仮説が生成され、最後に特徴メトリック改良によって最適化されます。
このメソッドは、対称性やテクスチャのない困難なオブジェクトを含むさまざまなオブジェクトを処理でき、標準 BOP ベンチマークでの精度と速度の両方で、粗い姿勢推定の既存の RGB メソッドよりも著しく優れています。
フィーチャーメトリックと追加の MegaPose 改良により、補完的なことが実証されており、このメソッドはすべての RGB 競合他社よりも優れたパフォーマンスを発揮します。
ソースコードは evinpinar.github.io/foundpose にあります。

要約(オリジナル)

We propose FoundPose, a method for 6D pose estimation of unseen rigid objects from a single RGB image. The method assumes that 3D models of the objects are available but does not require any object-specific training. This is achieved by building upon DINOv2, a recent vision foundation model with impressive generalization capabilities. An online pose estimation stage is supported by a minimal object representation that is built during a short onboarding stage from DINOv2 patch features extracted from rendered object templates. Given a query image with an object segmentation mask, FoundPose first rapidly retrieves a handful of similarly looking templates by a DINOv2-based bag-of-words approach. Pose hypotheses are then generated from 2D-3D correspondences established by matching DINOv2 patch features between the query image and a retrieved template, and finally optimized by featuremetric refinement. The method can handle diverse objects, including challenging ones with symmetries and without any texture, and noticeably outperforms existing RGB methods for coarse pose estimation in both accuracy and speed on the standard BOP benchmark. With the featuremetric and additional MegaPose refinement, which are demonstrated complementary, the method outperforms all RGB competitors. Source code is at: evinpinar.github.io/foundpose.

arxiv情報

著者 Evin Pınar Örnek,Yann Labbé,Bugra Tekin,Lingni Ma,Cem Keskin,Christian Forster,Tomas Hodan
発行日 2023-11-30 18:52:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク