BANMo: Building Animatable 3D Neural Models from Many Casual Videos

要約

タイトル:BANMo:多くのカジュアル動画からアニメーション可能な3Dニューラルモデルを構築する

要約:従来の関節付き3D形状の再構築には、特殊なセンサー(例えば、同期したマルチカメラシステム)または事前に構築された3D変形モデル(例えば、SMALまたはSMPL)が必要であった。しかし、これらの方法では多様な物体にスケールアップすることができない。本研究では、専門的なセンサーや事前に定義されたテンプレート形状を必要としない「BANMo」という手法を提案している。BANMoは、異なるiableなレンダリングフレームワーク内で、多数のモノクロのカジュアル動画から、形状とアニメーション可能なスキニングウェイトを含む高品質の関節付き3Dモデルを構築する。多くの動画を使用することで、カメラのビューとオブジェクトの関節をより広くカバーすることができるが、異なる背景、照明条件など、異なるシーンの間で対応を確立する際には課題がある。本研究では、3つの考え方を統合した:(1)関節骨とブレンドスキニングを使用する古典的な変形形状モデル、(2)勾配ベースの最適化に応じた体積ニューラル放射場(NeRFs)、(3)ピクセルと関節付きモデルの間で対応を生成するカノニカル埋め込み。ニューラルブレンドスキニングモデルを導入することにより、可微分で反転可能な関節変形を可能にする。これらのモデルをカノニカル埋め込みと組み合わせることで、自己教師付きのサイクル整合性で密な対応を確立することができる。実際のデータセットと合成データセットを使用して、BANMoは、人と動物のための従来の作品よりも高品質な3D再構築を示し、新しい視点やポーズから現実的な画像をレンダリングする能力がある。プロジェクトのウェブページ:banmo-www.github.io。

要約(オリジナル)

Prior work for articulated 3D shape reconstruction often relies on specialized sensors (e.g., synchronized multi-camera systems), or pre-built 3D deformable models (e.g., SMAL or SMPL). Such methods are not able to scale to diverse sets of objects in the wild. We present BANMo, a method that requires neither a specialized sensor nor a pre-defined template shape. BANMo builds high-fidelity, articulated 3D models (including shape and animatable skinning weights) from many monocular casual videos in a differentiable rendering framework. While the use of many videos provides more coverage of camera views and object articulations, they introduce significant challenges in establishing correspondence across scenes with different backgrounds, illumination conditions, etc. Our key insight is to merge three schools of thought; (1) classic deformable shape models that make use of articulated bones and blend skinning, (2) volumetric neural radiance fields (NeRFs) that are amenable to gradient-based optimization, and (3) canonical embeddings that generate correspondences between pixels and an articulated model. We introduce neural blend skinning models that allow for differentiable and invertible articulated deformations. When combined with canonical embeddings, such models allow us to establish dense correspondences across videos that can be self-supervised with cycle consistency. On real and synthetic datasets, BANMo shows higher-fidelity 3D reconstructions than prior works for humans and animals, with the ability to render realistic images from novel viewpoints and poses. Project webpage: banmo-www.github.io .

arxiv情報

著者 Gengshan Yang,Minh Vo,Natalia Neverova,Deva Ramanan,Andrea Vedaldi,Hanbyul Joo
発行日 2023-04-03 13:57:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.GR パーマリンク