要約
6D オブジェクトの姿勢推定と追跡のための統合基盤モデルである FoundationPose を紹介し、モデルベースとモデルフリーのセットアップの両方をサポートします。
私たちのアプローチは、CAD モデルが与えられているか、少数の参照画像がキャプチャされている限り、微調整することなく、テスト時に新しいオブジェクトに即座に適用できます。
これら 2 つのセットアップ間のギャップを、効果的な新しいビュー合成を可能にするニューラル暗黙的表現で橋渡しし、同じ統一フレームワークの下で下流の姿勢推定モジュールを不変に保ちます。
大規模言語モデル (LLM)、新しいトランスフォーマーベースのアーキテクチャ、および対照的な学習定式化によって支援された大規模な合成トレーニングによって、強力な一般化可能性が実現されます。
困難なシナリオやオブジェクトを含む複数の公開データセットに対する広範な評価により、私たちの統一アプローチが各タスクに特化した既存の手法を大幅に上回るパフォーマンスを示しています。
さらに、仮定が軽減されているにもかかわらず、インスタンス レベルのメソッドと同等の結果も得られます。
プロジェクトページ: https://nvlabs.github.io/FoundationPose/
要約(オリジナル)
We present FoundationPose, a unified foundation model for 6D object pose estimation and tracking, supporting both model-based and model-free setups. Our approach can be instantly applied at test-time to a novel object without fine-tuning, as long as its CAD model is given, or a small number of reference images are captured. We bridge the gap between these two setups with a neural implicit representation that allows for effective novel view synthesis, keeping the downstream pose estimation modules invariant under the same unified framework. Strong generalizability is achieved via large-scale synthetic training, aided by a large language model (LLM), a novel transformer-based architecture, and contrastive learning formulation. Extensive evaluation on multiple public datasets involving challenging scenarios and objects indicate our unified approach outperforms existing methods specialized for each task by a large margin. In addition, it even achieves comparable results to instance-level methods despite the reduced assumptions. Project page: https://nvlabs.github.io/FoundationPose/
arxiv情報
著者 | Bowen Wen,Wei Yang,Jan Kautz,Stan Birchfield |
発行日 | 2023-12-13 18:28:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google