Neural Assets: 3D-Aware Multi-Object Scene Synthesis with Image Diffusion Models

要約

画像拡散モデルにおける複数オブジェクトの 3D 姿勢制御の問題に取り組みます。
一連のテキスト トークンを条件付ける代わりに、オブジェクトごとの表現のセットであるニューラル アセットを使用して、シーン内の個々のオブジェクトの 3D ポーズを制御することを提案します。
ニューラル アセットは、ビデオ内のフレームなどの参照画像からオブジェクトの視覚表現をプールすることによって取得され、異なる画像 (ビデオ内の後のフレームなど) でそれぞれのオブジェクトを再構成するようにトレーニングされます。
重要なのは、ターゲット フレームからのオブジェクトのポーズを条件付けしながら、参照イメージからオブジェクトのビジュアルをエンコードすることです。
これにより、外観とポーズの特徴を解きほぐして学習できるようになります。
視覚的ポーズ表現と 3D ポーズ表現をシーケンス オブ トークン形式で組み合わせることで、テキスト トークンの代わりにニューラル アセットを使用して、既存のモデルのテキストから画像へのアーキテクチャを維持することができます。
この情報を使用して事前トレーニングされたテキストから画像への拡散モデルを微調整することにより、私たちのアプローチでは、シーン内の個々のオブジェクトのきめ細かい 3D ポーズと配置の制御が可能になります。
さらに、ニューラル アセットをさまざまなシーン間で転送および再構成できることを示します。
私たちのモデルは、合成 3D シーン データセットと 2 つの現実世界のビデオ データセット (Objectron、Waymo Open) の両方で最先端のマルチオブジェクト編集結果を実現します。

要約(オリジナル)

We address the problem of multi-object 3D pose control in image diffusion models. Instead of conditioning on a sequence of text tokens, we propose to use a set of per-object representations, Neural Assets, to control the 3D pose of individual objects in a scene. Neural Assets are obtained by pooling visual representations of objects from a reference image, such as a frame in a video, and are trained to reconstruct the respective objects in a different image, e.g., a later frame in the video. Importantly, we encode object visuals from the reference image while conditioning on object poses from the target frame. This enables learning disentangled appearance and pose features. Combining visual and 3D pose representations in a sequence-of-tokens format allows us to keep the text-to-image architecture of existing models, with Neural Assets in place of text tokens. By fine-tuning a pre-trained text-to-image diffusion model with this information, our approach enables fine-grained 3D pose and placement control of individual objects in a scene. We further demonstrate that Neural Assets can be transferred and recomposed across different scenes. Our model achieves state-of-the-art multi-object editing results on both synthetic 3D scene datasets, as well as two real-world video datasets (Objectron, Waymo Open).

arxiv情報

著者 Ziyi Wu,Yulia Rubanova,Rishabh Kabra,Drew A. Hudson,Igor Gilitschenski,Yusuf Aytar,Sjoerd van Steenkiste,Kelsey R. Allen,Thomas Kipf
発行日 2024-06-13 16:29:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク