ShAPO: Implicit Representations for Multi-Object Shape, Appearance, and Pose Optimization

要約

私たちの方法は、単一のRGB-D観測からオブジェクト中心の3D理解の複雑なタスクを研究します。
これは不適切な問題であるため、既存の方法では、オクルージョンを伴う複雑なマルチオブジェクトシナリオで、3D形状と6Dポーズおよびサイズの両方の推定のパフォーマンスが低下します。
共同マルチオブジェクト検出、3Dテクスチャ再構成、6Dオブジェクトのポーズとサイズの推定のための方法であるShAPOを紹介します。
ShAPOの鍵は、形状、外観、ポーズの潜在コードを各オブジェクトインスタンスのマスクとともに回帰するシングルショットパイプラインです。これは、スパースからデンスにさらに洗練されます。
事前の新しい解きほぐされた形状と外観のデータベースは、最初に、それぞれの形状と外観の空間にオブジェクトを埋め込むことを学びます。
また、新しい八分木ベースの微分可能な最適化ステップを提案します。これにより、合成による分析の方法で、学習した潜在空間の下でオブジェクトの形状、ポーズ、外観を同時にさらに改善できます。
私たちの新しいジョイント暗黙的テクスチャオブジェクト表現により、3Dメッシュにアクセスすることなく、新しい目に見えないオブジェクトを正確に識別して再構築できます。
広範な実験を通じて、シミュレートされた屋内シーンでトレーニングされた私たちの方法が、最小限の微調整で、現実世界の新しいオブジェクトの形状、外観、およびポーズを正確に回帰することを示します。
私たちの方法は、NOCSデータセットのすべてのベースラインを大幅に上回り、6Dポーズ推定のmAPが8%絶対的に向上しています。
プロジェクトページ:https://zubair-irshad.github.io/projects/ShAPO.html

要約(オリジナル)

Our method studies the complex task of object-centric 3D understanding from a single RGB-D observation. As it is an ill-posed problem, existing methods suffer from low performance for both 3D shape and 6D pose and size estimation in complex multi-object scenarios with occlusions. We present ShAPO, a method for joint multi-object detection, 3D textured reconstruction, 6D object pose and size estimation. Key to ShAPO is a single-shot pipeline to regress shape, appearance and pose latent codes along with the masks of each object instance, which is then further refined in a sparse-to-dense fashion. A novel disentangled shape and appearance database of priors is first learned to embed objects in their respective shape and appearance space. We also propose a novel, octree-based differentiable optimization step, allowing us to further improve object shape, pose and appearance simultaneously under the learned latent space, in an analysis-by-synthesis fashion. Our novel joint implicit textured object representation allows us to accurately identify and reconstruct novel unseen objects without having access to their 3D meshes. Through extensive experiments, we show that our method, trained on simulated indoor scenes, accurately regresses the shape, appearance and pose of novel objects in the real-world with minimal fine-tuning. Our method significantly out-performs all baselines on the NOCS dataset with an 8% absolute improvement in mAP for 6D pose estimation. Project page: https://zubair-irshad.github.io/projects/ShAPO.html

arxiv情報

著者 Muhammad Zubair Irshad,Sergey Zakharov,Rares Ambrus,Thomas Kollar,Zsolt Kira,Adrien Gaidon
発行日 2022-07-27 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク