Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion

要約

我々は、事前にトレーニングされた 2D 拡散ベースの画像ジェネレーターからの「無料」仮想監視のみに依存して、多関節オブジェクトのカテゴリ固有の 3D 再構成器を学習する方法である Farm3D を紹介します。
最近のアプローチでは、オブジェクト カテゴリの単一ビュー画像のコレクションが与えられた場合に、あらゆるオブジェクトの 3D 形状、アルベド、照明、および視点を予測する単眼ネットワークを学習できます。
ただし、これらのアプローチは、手動で厳選されたクリーンなトレーニング データに大きく依存しており、取得にはコストがかかります。
私たちは、安定拡散などの画像ジェネレーターを使用して、十分にクリーンでさらなる手動キュレーションを必要としない合成トレーニング データを生成するフレームワークを提案します。これにより、このような再構成ネットワークを最初から学習できるようになります。
さらに、学習プロセスを強化するために、拡散モデルをスコアとして組み込みます。
このアイデアには、視点や照明などの再構成の特定の側面をランダム化し、再構成された 3D オブジェクトの仮想ビューを生成し、2D ネットワークが結果の画像の品質を評価できるようにして、再構成者にフィードバックを提供することが含まれます。
テキストプロンプトごとに 1 つの 3D アセットを生成する蒸留に基づく作業とは異なり、私たちのアプローチでは、本物か生成された画像かにかかわらず、任意の画像から制御可能な 3D アセットを 1 回の順方向パスで出力できる単眼再構成ネットワークが得られます。
秒。
当社のネットワークは、単眼再構築などの分析や、ビデオ ゲームなどのリアルタイム アプリケーション用の多関節アセットを生成する合成に使用できます。

要約(オリジナル)

We present Farm3D, a method for learning category-specific 3D reconstructors for articulated objects, relying solely on ‘free’ virtual supervision from a pre-trained 2D diffusion-based image generator. Recent approaches can learn a monocular network that predicts the 3D shape, albedo, illumination, and viewpoint of any object occurrence, given a collection of single-view images of an object category. However, these approaches heavily rely on manually curated clean training data, which are expensive to obtain. We propose a framework that uses an image generator, such as Stable Diffusion, to generate synthetic training data that are sufficiently clean and do not require further manual curation, enabling the learning of such a reconstruction network from scratch. Additionally, we incorporate the diffusion model as a score to enhance the learning process. The idea involves randomizing certain aspects of the reconstruction, such as viewpoint and illumination, generating virtual views of the reconstructed 3D object, and allowing the 2D network to assess the quality of the resulting image, thus providing feedback to the reconstructor. Unlike work based on distillation, which produces a single 3D asset for each textual prompt, our approach yields a monocular reconstruction network capable of outputting a controllable 3D asset from any given image, whether real or generated, in a single forward pass in a matter of seconds. Our network can be used for analysis, including monocular reconstruction, or for synthesis, generating articulated assets for real-time applications such as video games.

arxiv情報

著者 Tomas Jakab,Ruining Li,Shangzhe Wu,Christian Rupprecht,Andrea Vedaldi
発行日 2024-05-14 14:37:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク