Learning the 3D Fauna of the Web

要約

地球上のすべての動物の3Dモデルを学習するには、既存のソリューションを大幅にスケールアップする必要がある。この究極の目標を念頭に置いて、我々は3D-Faunaを開発した。3D-Faunaは、100種以上の動物の汎カテゴリー変形可能な3D動物モデルを共同で学習するアプローチである。動物をモデル化する際の重要なボトルネックの一つは、利用可能な学習データが限られていることであるが、我々は単純に2Dのインターネット画像から学習することでこれを克服する。我々は、カテゴリーに特化した先行研究が、限られた学習画像では希少種への一般化に失敗することを示す。SBSMは、幾何学的帰納的事前分布を、市販の自己教師付き特徴抽出器によって暗黙的に捉えられた意味的知識と組み合わせることによって、基本的な動物の形状の小さなセットを自動的に発見する。このようなモデルを訓練するために、我々は多様な動物種の大規模データセットも新たに提供する。推論時に、任意の四足歩行の動物の単一の画像が与えられると、我々のモデルは数秒以内にフィードフォワード方式で関節3Dメッシュを再構成する。

要約(オリジナル)

Learning 3D models of all animals on the Earth requires massively scaling up existing solutions. With this ultimate goal in mind, we develop 3D-Fauna, an approach that learns a pan-category deformable 3D animal model for more than 100 animal species jointly. One crucial bottleneck of modeling animals is the limited availability of training data, which we overcome by simply learning from 2D Internet images. We show that prior category-specific attempts fail to generalize to rare species with limited training images. We address this challenge by introducing the Semantic Bank of Skinned Models (SBSM), which automatically discovers a small set of base animal shapes by combining geometric inductive priors with semantic knowledge implicitly captured by an off-the-shelf self-supervised feature extractor. To train such a model, we also contribute a new large-scale dataset of diverse animal species. At inference time, given a single image of any quadruped animal, our model reconstructs an articulated 3D mesh in a feed-forward fashion within seconds.

arxiv情報

著者 Zizhang Li,Dor Litvak,Ruining Li,Yunzhi Zhang,Tomas Jakab,Christian Rupprecht,Shangzhe Wu,Andrea Vedaldi,Jiajun Wu
発行日 2024-01-04 18:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク