SAOR: Single-View Articulated Object Reconstruction


自然界で撮影された単一の画像から多関節オブジェクトの 3D 形状、テクスチャ、および視点を推定するための新しいアプローチである SAOR を紹介します。
定義済みのカテゴリ固有の 3D テンプレートまたは調整された 3D スケルトンに依存する従来のアプローチとは異なり、SAOR は、3D オブジェクト形状の優先順位を必要とせずに、スケルトンのないパーツベースのモデルを使用して、単一ビューの画像コレクションから形状を明確にすることを学習します。
これは、トレーニング中の視点の多様性を強化する新しいシルエット ベースのサンプリング メカニズムによって支援されます。
私たちの方法は、トレーニング中に既製の事前トレーニング済みネットワークから推定されたオブジェクト シルエットと相対的な深度マップのみを必要とします。


We introduce SAOR, a novel approach for estimating the 3D shape, texture, and viewpoint of an articulated object from a single image captured in the wild. Unlike prior approaches that rely on pre-defined category-specific 3D templates or tailored 3D skeletons, SAOR learns to articulate shapes from single-view image collections with a skeleton-free part-based model without requiring any 3D object shape priors. To prevent ill-posed solutions, we propose a cross-instance consistency loss that exploits disentangled object shape deformation and articulation. This is helped by a new silhouette-based sampling mechanism to enhance viewpoint diversity during training. Our method only requires estimated object silhouettes and relative depth maps from off-the-shelf pre-trained networks during training. At inference time, given a single-view image, it efficiently outputs an explicit mesh representation. We obtain improved qualitative and quantitative results on challenging quadruped animals compared to relevant existing work.


著者 Mehmet Aygün,Oisin Mac Aodha
発行日 2023-03-23 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク