要約
スコア蒸留サンプリング(SDS)は、テキストから3Dのコンテンツ生成で顕著な成功を収めています。
ただし、SDSベースの方法は、特に複雑な相互作用を持つ複数のオブジェクトを含む場合、ユーザープロンプトのセマンティックフィデリティを維持するのに苦労しています。
既存のアプローチは、多くの場合、3Dデータセットでのマルチビュー拡散モデルの微調整を介した3D一貫性に対処しますが、この戦略はテキスト3Dアライメント劣化を誤って悪化させます。
この制限は、最適化中のSDSの視野非依存バイアスの固有の蓄積に由来し、理想的なテキストアライメント方向から徐々に分岐します。
この制限を緩和するために、マルチモーダルラージランゲージモデル(MLLM)からのアライメントフィードバックを統合するテキストコヒーレントスコア蒸留(TCSD)と呼ばれる新しいSDS目標を提案します。
TCSDは、MLLMのクロスモーダル理解機能を活用して、最適化中のテキスト3D対応を評価およびガイドします。
さらに、3DLLAVA-Critic-3D世代のマルチビューテキストアライメントを評価するために特化した微調整されたMLLMを開発します。
さらに、セマンティック認識の空間構成を介して最適化の収束を大幅に加速するLLM-Layout初期化を導入します。
包括的な評価は、T $^3 $ベンチやTIFAサブセットなど、複数のベンチマークにわたって、テキストに合わせた3D生成の最先端のパフォーマンスを確立していることを示しています。
定性的な結果は、テキストの一貫性とセマンティックの相互作用を維持する際に、コヘンドリームの優れたパフォーマンスを示しています。
MLLMをSDS最適化に組み込む最初の研究として、3D世代タスクの最適なMLLM適応を調査するために広範なアブレーション研究も実施します。
要約(オリジナル)
Score Distillation Sampling (SDS) has achieved remarkable success in text-to-3D content generation. However, SDS-based methods struggle to maintain semantic fidelity for user prompts, particularly when involving multiple objects with intricate interactions. While existing approaches often address 3D consistency through multiview diffusion model fine-tuning on 3D datasets, this strategy inadvertently exacerbates text-3D alignment degradation. The limitation stems from SDS’s inherent accumulation of view-independent biases during optimization, which progressively diverges from the ideal text alignment direction. To alleviate this limitation, we propose a novel SDS objective, dubbed as Textual Coherent Score Distillation (TCSD), which integrates alignment feedback from multimodal large language models (MLLMs). Our TCSD leverages cross-modal understanding capabilities of MLLMs to assess and guide the text-3D correspondence during the optimization. We further develop 3DLLaVA-CRITIC – a fine-tuned MLLM specialized for evaluating multiview text alignment in 3D generations. Additionally, we introduce an LLM-layout initialization that significantly accelerates optimization convergence through semantic-aware spatial configuration. Comprehensive evaluations demonstrate that our framework, CoherenDream, establishes state-of-the-art performance in text-aligned 3D generation across multiple benchmarks, including T$^3$Bench and TIFA subset. Qualitative results showcase the superior performance of CoherenDream in preserving textual consistency and semantic interactions. As the first study to incorporate MLLMs into SDS optimization, we also conduct extensive ablation studies to explore optimal MLLM adaptations for 3D generation tasks.
arxiv情報
著者 | Chenhan Jiang,Yihan Zeng,Hang Xu,Dit-Yan Yeung |
発行日 | 2025-04-28 14:50:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google