要約
3D メッシュは、アニメーションの効率性とメモリ使用量を最小限に抑えるため、コンピュータ ビジョンやグラフィックスで広く使用されており、映画、ゲーム、AR、VR で重要な役割を果たしています。
ただし、メッシュ シーケンスに対して時間的に一貫したリアルなテクスチャを作成することは、プロのアーティストにとって依然として多大な労力を要します。
一方、ビデオ拡散モデルはテキスト駆動のビデオ生成には優れていますが、多くの場合 3D ジオメトリの認識が不足しており、3D メッシュのマルチビューで一貫したテクスチャリングを実現するのに苦労しています。
この研究では、メッシュ シーケンスからの固有の 3D ジオメトリの知識とビデオ拡散モデルの表現力を統合して、マルチビューで時間的に一貫した 4D テクスチャを生成するゼロショット アプローチである Tex4D を紹介します。
テクスチャ化されていないメッシュ シーケンスとテキスト プロンプトを入力として指定すると、私たちの方法は、UV 空間での潜在的な集約を通じて異なるビュー間で拡散プロセスを同期することにより、マルチビューの一貫性を強化します。
時間的な一貫性を確保するために、テクスチャ合成の条件付きビデオ生成モデルからの事前知識を活用します。
ただし、ビデオ拡散モデルと UV テクスチャ集約を直接組み合わせると、結果がぼやけてしまいます。
私たちは根本的な原因を分析し、この問題に対処するために DDIM サンプリング プロセスに対するシンプルかつ効果的な変更を提案します。
さらに、ノイズ除去プロセス中のフレーム間の相関を強化するために、参照潜在テクスチャを導入します。
私たちの知る限り、Tex4D は 4D シーンのテクスチャリング用に特別に設計された最初の手法です。
広範な実験により、テクスチャなしのメッシュ シーケンスに基づいてマルチビューおよびマルチフレームの一貫したビデオを生成する際の優位性が実証されました。
要約(オリジナル)
3D meshes are widely used in computer vision and graphics for their efficiency in animation and minimal memory use, playing a crucial role in movies, games, AR, and VR. However, creating temporally consistent and realistic textures for mesh sequences remains labor-intensive for professional artists. On the other hand, while video diffusion models excel at text-driven video generation, they often lack 3D geometry awareness and struggle with achieving multi-view consistent texturing for 3D meshes. In this work, we present Tex4D, a zero-shot approach that integrates inherent 3D geometry knowledge from mesh sequences with the expressiveness of video diffusion models to produce multi-view and temporally consistent 4D textures. Given an untextured mesh sequence and a text prompt as inputs, our method enhances multi-view consistency by synchronizing the diffusion process across different views through latent aggregation in the UV space. To ensure temporal consistency, we leverage prior knowledge from a conditional video generation model for texture synthesis. However, straightforwardly combining the video diffusion model and the UV texture aggregation leads to blurry results. We analyze the underlying causes and propose a simple yet effective modification to the DDIM sampling process to address this issue. Additionally, we introduce a reference latent texture to strengthen the correlation between frames during the denoising process. To the best of our knowledge, Tex4D is the first method specifically designed for 4D scene texturing. Extensive experiments demonstrate its superiority in producing multi-view and multi-frame consistent videos based on untextured mesh sequences.
arxiv情報
著者 | Jingzhi Bao,Xueting Li,Ming-Hsuan Yang |
発行日 | 2024-10-14 17:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google