SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation

要約

ゼロショット 6D オブジェクトのポーズ推定には、乱雑なシーンで 6D ポーズを持つ新しいオブジェクトの検出が含まれるため、モデルの一般化に大きな課題が生じます。
幸いなことに、最近のセグメント エニシング モデル (SAM) は、驚くべきゼロショット転送パフォーマンスを示しており、このタスクに取り組むための有望なソリューションを提供します。
これを動機として、インスタンスのセグメンテーションと姿勢推定を含む 2 つのステップを通じてタスクを実現するように設計された新しいフレームワークである SAM-6D を紹介します。
ターゲット オブジェクトを考慮すると、SAM-6D は 2 つの専用サブネットワーク、つまりインスタンス セグメンテーション モデル (ISM) と姿勢推定モデル (PEM) を使用して、乱雑な RGB-D 画像に対してこれらの手順を実行します。
ISM は、SAM を高度な開始点として利用して、考えられるすべてのオブジェクト提案を生成し、セマンティクス、外観、ジオメトリの観点から細心の注意を払って作成されたオブジェクト マッチング スコアを通じて有効なオブジェクトを選択的に保存します。
姿勢推定を部分対部分点マッチング問題として扱うことにより、PEM は背景トークンの新しい設計を特徴とする 2 段階の点マッチング プロセスを実行して、密な 3D-3D 対応を構築し、最終的に姿勢推定を生成します。
付加機能を省くと、SAM-6D は、インスタンス セグメンテーションと新規オブジェクトの姿勢推定の両方において、BOP ベンチマークの 7 つのコア データセットで既存の手法を上回ります。

要約(オリジナル)

Zero-shot 6D object pose estimation involves the detection of novel objects with their 6D poses in cluttered scenes, presenting significant challenges for model generalizability. Fortunately, the recent Segment Anything Model (SAM) has showcased remarkable zero-shot transfer performance, which provides a promising solution to tackle this task. Motivated by this, we introduce SAM-6D, a novel framework designed to realize the task through two steps, including instance segmentation and pose estimation. Given the target objects, SAM-6D employs two dedicated sub-networks, namely Instance Segmentation Model (ISM) and Pose Estimation Model (PEM), to perform these steps on cluttered RGB-D images. ISM takes SAM as an advanced starting point to generate all possible object proposals and selectively preserves valid ones through meticulously crafted object matching scores in terms of semantics, appearance and geometry. By treating pose estimation as a partial-to-partial point matching problem, PEM performs a two-stage point matching process featuring a novel design of background tokens to construct dense 3D-3D correspondence, ultimately yielding the pose estimates. Without bells and whistles, SAM-6D outperforms the existing methods on the seven core datasets of the BOP Benchmark for both instance segmentation and pose estimation of novel objects.

arxiv情報

著者 Jiehong Lin,Lihua Liu,Dekun Lu,Kui Jia
発行日 2024-03-06 12:23:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク