Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

要約

テキストの説明から高品質の 3D アセットを生成することは、コンピューター グラフィックスとビジョンの研究において依然として極めて重要な課題です。
3D データが不足しているため、最先端のアプローチでは、スコア蒸留サンプリング (SDS) を通じて最適化された、事前にトレーニングされた 2D 拡散事前分布が利用されます。
進歩にもかかわらず、複数のオブジェクトや複雑なインタラクションを特徴とする複雑な 3D シーンを作成することは依然として困難です。
これに取り組むために、最近の手法にはボックスまたはレイアウトのガイダンスが組み込まれています。
ただし、これらのレイアウトに基づいた構成方法は、一般に粗くて表現力に欠けるため、きめ細かい制御を提供するのに苦労することがよくあります。
これらの課題を克服するために、構成テキストから 3D への生成の表現力と精度を効果的に向上させるように設計された、新しい SDS アプローチであるセマンティック スコア蒸留サンプリング (SemanticSDS) を導入します。
私たちのアプローチは、さまざまなレンダリング ビュー間で一貫性を維持し、さまざまなオブジェクトとパーツを明確に区別する新しいセマンティック埋め込みを統合します。
これらの埋め込みは、領域固有の SDS プロセスを指示するセマンティック マップに変換され、正確な最適化と構成生成が可能になります。
明示的なセマンティック ガイダンスを活用することで、私たちの方法は既存の事前トレーニングされた拡散モデルの合成機能を解放し、それによって特に複雑なオブジェクトやシーンの 3D コンテンツ生成で優れた品質を実現します。
実験結果は、当社の SemanticSDS フレームワークが最先端の複雑な 3D コンテンツの生成に非常に効果的であることを示しています。
コード: https://github.com/YangLing0818/SemanticSDS-3D

要約(オリジナル)

Generating high-quality 3D assets from textual descriptions remains a pivotal challenge in computer graphics and vision research. Due to the scarcity of 3D data, state-of-the-art approaches utilize pre-trained 2D diffusion priors, optimized through Score Distillation Sampling (SDS). Despite progress, crafting complex 3D scenes featuring multiple objects or intricate interactions is still difficult. To tackle this, recent methods have incorporated box or layout guidance. However, these layout-guided compositional methods often struggle to provide fine-grained control, as they are generally coarse and lack expressiveness. To overcome these challenges, we introduce a novel SDS approach, Semantic Score Distillation Sampling (SemanticSDS), designed to effectively improve the expressiveness and accuracy of compositional text-to-3D generation. Our approach integrates new semantic embeddings that maintain consistency across different rendering views and clearly differentiate between various objects and parts. These embeddings are transformed into a semantic map, which directs a region-specific SDS process, enabling precise optimization and compositional generation. By leveraging explicit semantic guidance, our method unlocks the compositional capabilities of existing pre-trained diffusion models, thereby achieving superior quality in 3D content generation, particularly for complex objects and scenes. Experimental results demonstrate that our SemanticSDS framework is highly effective for generating state-of-the-art complex 3D content. Code: https://github.com/YangLing0818/SemanticSDS-3D

arxiv情報

著者 Ling Yang,Zixiang Zhang,Junlin Han,Bohan Zeng,Runjia Li,Philip Torr,Wentao Zhang
発行日 2024-10-11 17:26:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク