要約
カテゴリレベルの3D/6Dポーズ推定は、包括的な3Dシーンの理解に向けた重要なステップであり、ロボット工学と具体化されたAIで幅広いアプリケーションを可能にします。
最近の研究では、分析による2Dおよび3Dタスクの範囲に近づくニューラルメッシュモデルを調査しました。
部分的な閉塞とドメインシフトに対する堅牢性が大幅に向上したにもかかわらず、これらの方法は、部分的に制御する学習のための3Dアノテーションに大きく依存しており、それらを狭いカテゴリに限定し、効率的なスケーリングを妨げます。
この作業では、大規模な視覚基盤モデルから得られた擬似対応を活用することにより、3D注釈なしで訓練された新しいニューラルメッシュモデルであるDinemoを提示します。
私たちは、視覚的な擬似対応法を採用し、擬似対応を生成し、ローカルな外観機能とグローバルなコンテキスト情報の両方を利用します。
CARデータセットの実験結果は、DINEMOが以前のゼロおよび少数の3Dポーズ推定を大きく上回ることを示しており、完全に監視された方法で67.3%のギャップを絞り込んでいることを示しています。
私たちのDINEMOはまた、トレーニング中により多くのラベル付けされた画像を組み込むときに効果的かつ効率的に拡大します。これは、3Dアノテーションに依存する監視された学習方法よりも利点を示しています。
プロジェクトページは、https:///analysis-by-synthesis.github.io/dinemo/で入手できます。
要約(オリジナル)
Category-level 3D/6D pose estimation is a crucial step towards comprehensive 3D scene understanding, which would enable a broad range of applications in robotics and embodied AI. Recent works explored neural mesh models that approach a range of 2D and 3D tasks from an analysis-by-synthesis perspective. Despite the largely enhanced robustness to partial occlusion and domain shifts, these methods depended heavily on 3D annotations for part-contrastive learning, which confines them to a narrow set of categories and hinders efficient scaling. In this work, we present DINeMo, a novel neural mesh model that is trained with no 3D annotations by leveraging pseudo-correspondence obtained from large visual foundation models. We adopt a bidirectional pseudo-correspondence generation method, which produce pseudo correspondence utilize both local appearance features and global context information. Experimental results on car datasets demonstrate that our DINeMo outperforms previous zero- and few-shot 3D pose estimation by a wide margin, narrowing the gap with fully-supervised methods by 67.3%. Our DINeMo also scales effectively and efficiently when incorporating more unlabeled images during training, which demonstrate the advantages over supervised learning methods that rely on 3D annotations. Our project page is available at https://analysis-by-synthesis.github.io/DINeMo/.
arxiv情報
著者 | Weijie Guo,Guofeng Zhang,Wufei Ma,Alan Yuille |
発行日 | 2025-06-09 16:25:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google