MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images

要約

オブジェクトの姿勢推定のための最近の学習方法では、個々のオブジェクト インスタンスまたはカテゴリごとにリソースを大量に使用するトレーニングが必要となり、これまでに見たことのないオブジェクトに直面した場合に実際のアプリケーションでのスケーラビリティが妨げられます。
この論文では、RGB-D 画像から 6D 姿勢推定を行うための Fuse-Describe-Match 戦略である MatchU を提案します。
MatchU は、目に見えないオブジェクトの 6D 姿勢予測のために 2D テクスチャと 3D 幾何学的キューを融合する一般的なアプローチです。
私たちは、設計により回転不変である幾何学的 3D 記述子の学習に依存しています。
姿勢に依存しないジオメトリをエンコードすることにより、学習された記述子は自然に目に見えないオブジェクトに一般化され、対称性がキャプチャされます。
3D ジオメトリのみを使用して曖昧な関連付けに対処するために、追加の RGB 情報を記述子に融合します。
これは、記述子の学習プロセスをガイドするために RGB データから学習した潜在空間を活用するマッチング損失と、クロスモーダル情報を融合する新しいアテンションベースのメカニズムによって実現されます。
広範な実験により、RGB-D 融合戦略と記述子の有効性の両方の一般化可能性が明らかになりました。
新しい設計の恩恵を受け、MatchU は、高価な再トレーニングやレンダリングを必要としない場合でも、精度と速度の両方の点で既存のすべての方法を大幅に上回ります。

要約(オリジナル)

Recent learning methods for object pose estimation require resource-intensive training for each individual object instance or category, hampering their scalability in real applications when confronted with previously unseen objects. In this paper, we propose MatchU, a Fuse-Describe-Match strategy for 6D pose estimation from RGB-D images. MatchU is a generic approach that fuses 2D texture and 3D geometric cues for 6D pose prediction of unseen objects. We rely on learning geometric 3D descriptors that are rotation-invariant by design. By encoding pose-agnostic geometry, the learned descriptors naturally generalize to unseen objects and capture symmetries. To tackle ambiguous associations using 3D geometry only, we fuse additional RGB information into our descriptor. This is achieved through a novel attention-based mechanism that fuses cross-modal information, together with a matching loss that leverages the latent space learned from RGB data to guide the descriptor learning process. Extensive experiments reveal the generalizability of both the RGB-D fusion strategy as well as the descriptor efficacy. Benefiting from the novel designs, MatchU surpasses all existing methods by a significant margin in terms of both accuracy and speed, even without the requirement of expensive re-training or rendering.

arxiv情報

著者 Junwen Huang,Hao Yu,Kuan-Ting Yu,Nassir Navab,Slobodan Ilic,Benjamin Busam
発行日 2024-05-08 11:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク