要約
我々は、単一の RGB 画像から目に見えないオブジェクトの 6D 姿勢推定を行うためのモデルベースの方法である FoundPose を提案します。
この方法では、オブジェクトまたはタスク固有のトレーニングを必要とせずに、3D モデルを使用して新しいオブジェクトを迅速にオンボードできます。
対照的に、既存の手法は通常、新しいオブジェクトに一般化し、画像とモデルのドメイン ギャップを埋めるために、大規模なタスク固有のデータセットで事前トレーニングを行います。
我々は、このような一般化機能が、自己教師ありの方法でトレーニングされた最近のビジョン基盤モデルで観察できることを実証します。
具体的には、私たちの方法は、画像とモデルの 2D-3D 対応関係からオブジェクトの姿勢を推定します。これは、画像と事前レンダリングされたオブジェクト テンプレートの間で、最新の DINOv2 モデルのパッチ記述子を照合することによって確立されます。
信頼できる対応関係は、中間 DINOv2 層からのパッチ記述子の kNN マッチングによって確立できることがわかりました。
このような記述子は、最後の層の記述子よりも強力な位置情報を運びます。オブジェクトの対称性やテクスチャの欠如により意味情報があいまいな場合、その重要性を示します。
すべてのオブジェクト テンプレートに対して対応関係を確立することを避けるために、パッチ記述子をバッグオブワード表現に統合し、類似した外観の少数のテンプレートを即座に提案できる効率的なテンプレート検索アプローチを開発します。
さらに、粗いパッチ サンプリングによって生じる 2D と 3D の対応の不一致を補正するために、フィーチャメトリック アライメントを適用します。
結果として得られた手法は、7 つの多様なデータセットを使用した標準 BOP ベンチマークでのリファインメント不要の姿勢推定において、既存の RGB 手法を大幅に上回っており、既存のレンダリングと比較のリファインメント手法とシームレスに組み合わせて、RGB のみの最先端の手法を実現できます。
結果。
プロジェクトページ: evinpinar.github.io/foundpose。
要約(オリジナル)
We propose FoundPose, a model-based method for 6D pose estimation of unseen objects from a single RGB image. The method can quickly onboard new objects using their 3D models without requiring any object- or task-specific training. In contrast, existing methods typically pre-train on large-scale, task-specific datasets in order to generalize to new objects and to bridge the image-to-model domain gap. We demonstrate that such generalization capabilities can be observed in a recent vision foundation model trained in a self-supervised manner. Specifically, our method estimates the object pose from image-to-model 2D-3D correspondences, which are established by matching patch descriptors from the recent DINOv2 model between the image and pre-rendered object templates. We find that reliable correspondences can be established by kNN matching of patch descriptors from an intermediate DINOv2 layer. Such descriptors carry stronger positional information than descriptors from the last layer, and we show their importance when semantic information is ambiguous due to object symmetries or a lack of texture. To avoid establishing correspondences against all object templates, we develop an efficient template retrieval approach that integrates the patch descriptors into the bag-of-words representation and can promptly propose a handful of similarly looking templates. Additionally, we apply featuremetric alignment to compensate for discrepancies in the 2D-3D correspondences caused by coarse patch sampling. The resulting method noticeably outperforms existing RGB methods for refinement-free pose estimation on the standard BOP benchmark with seven diverse datasets and can be seamlessly combined with an existing render-and-compare refinement method to achieve RGB-only state-of-the-art results. Project page: evinpinar.github.io/foundpose.
arxiv情報
著者 | Evin Pınar Örnek,Yann Labbé,Bugra Tekin,Lingni Ma,Cem Keskin,Christian Forster,Tomas Hodan |
発行日 | 2024-07-19 09:33:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google