Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion

要約

【タイトル】Farm3D:2D拡散を仕えることによる関節のある3D動物の学習

【要約】
– Farm3Dは、あらかじめトレーニングされた2D拡散ベースの画像生成器から「自由な」仮想監視のみで、関節のあるオブジェクトのカテゴリー固有の3Dリコンストラクタを学習する方法を提供する。
– 最近のアプローチでは、オブジェクトカテゴリーの単一視点画像のコレクションが与えられた場合、任意のオブジェクト出現の3D形状、アルベド、照明、および視点を予測する単眼ネットワークを学習できる。
– 我々は、Stable Diffusionなどの画像生成器をフレームワークに提案し、そこからスクラッチでこのリコンストラクションネットワークを学習するための仮想トレーニングデータを生成することを提案する。
– さらに、拡散モデルをスコアとして含めることで、学習をさらに改善する。アイデアは、視点や照明などのリコンストラクションの一部をランダム化し、リコンストラクトされた3Dオブジェクトの合成ビューを生成し、2Dネットワークが生成された画像の品質を評価し、リコンストラクタにフィードバックを提供することである。
– 「蒸留」に基づいた作業とは異なり、テキストプロンプトごとに単一の3Dアセットを生成する代わりに、我々のアプローチは、与えられた画像(実際のものまたは生成されたもの)から制御可能な3Dアセットを出力できる単眼リコンストラクションネットワークを生成する。そしてそれはわずか数秒で行えます。
– 当社のネットワークは、単眼リコンストラクションを含む分析に使用でき、また、ビデオゲームなどのリアルタイムアプリケーションのための関節アセットを生成するために使用できます。

要約(オリジナル)

We present Farm3D, a method to learn category-specific 3D reconstructors for articulated objects entirely from ‘free’ virtual supervision from a pre-trained 2D diffusion-based image generator. Recent approaches can learn, given a collection of single-view images of an object category, a monocular network to predict the 3D shape, albedo, illumination and viewpoint of any object occurrence. We propose a framework using an image generator like Stable Diffusion to generate virtual training data for learning such a reconstruction network from scratch. Furthermore, we include the diffusion model as a score to further improve learning. The idea is to randomise some aspects of the reconstruction, such as viewpoint and illumination, generating synthetic views of the reconstructed 3D object, and have the 2D network assess the quality of the resulting image, providing feedback to the reconstructor. Different from work based on distillation which produces a single 3D asset for each textual prompt in hours, our approach produces a monocular reconstruction network that can output a controllable 3D asset from a given image, real or generated, in only seconds. Our network can be used for analysis, including monocular reconstruction, or for synthesis, generating articulated assets for real-time applications such as video games.

arxiv情報

著者 Tomas Jakab,Ruining Li,Shangzhe Wu,Christian Rupprecht,Andrea Vedaldi
発行日 2023-04-20 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク