StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

要約

3Dガウスのスプラッティング(3DG)は、フォトリアリスティックシーンの再構築に優れていますが、テクスチャの断片化、意味的な不整合、および抽象的な美学への限定的な適応性による様式化されたシナリオ(例:漫画、ゲーム)と闘っています。
Multi-Modal Styleコンディショニング、マルチレベルのセマンティックアライメント、および知覚品質の向上を統合する3D GSスタイル転送の全体的なフレームワークであるStyleme3Dを提案します。
主要な洞察には、次のものが含まれます。(1)RGB属性のみを最適化すると、スタイリライゼーション中の幾何学的な完全性が保存されます。
(2)コヒーレントなスタイルの転送には、低、中、高レベルのセマンティクスを解き放つことが重要です。
(3)孤立したオブジェクトと複雑なシーン全体のスケーラビリティは、実際の展開に不可欠です。
styleme3dは、4つの新しいコンポーネントを導入します。動的スタイルスコア蒸留(DSSD)、セマンティックアライメントのための安定した拡散の潜在スペースを活用します。
ローカライズされたコンテンツを意識したテクスチャ転送用のコントラストスタイル記述子(CSD)。
スタイルの詳細と構造的一貫性を切り離すための同時に最適化されたスケール(SOS)。
3Dガウス品質評価(3DG-QA)は、アーティファクトを抑制し、視覚的な調和を強化するために、人間の評価データで訓練された微分可能な美学です。
NERF合成データセット(オブジェクト)およびタントDB(シーン)データセットで評価されたStyleme3Dは、幾何学的な詳細(彫刻の彫刻など)を維持し、シーン全体でスタイルの一貫性を確保する(例えば、ランドスケープでの一貫した照明)を維持し、現実の照明を維持します。
この作業は、光リアリスティックな3D GSと芸術的なスタイリライゼーションを橋渡しし、ゲーム、仮想世界、デジタルアートのアプリケーションのロックを解除します。

要約(オリジナル)

3D Gaussian Splatting (3DGS) excels in photorealistic scene reconstruction but struggles with stylized scenarios (e.g., cartoons, games) due to fragmented textures, semantic misalignment, and limited adaptability to abstract aesthetics. We propose StyleMe3D, a holistic framework for 3D GS style transfer that integrates multi-modal style conditioning, multi-level semantic alignment, and perceptual quality enhancement. Our key insights include: (1) optimizing only RGB attributes preserves geometric integrity during stylization; (2) disentangling low-, medium-, and high-level semantics is critical for coherent style transfer; (3) scalability across isolated objects and complex scenes is essential for practical deployment. StyleMe3D introduces four novel components: Dynamic Style Score Distillation (DSSD), leveraging Stable Diffusion’s latent space for semantic alignment; Contrastive Style Descriptor (CSD) for localized, content-aware texture transfer; Simultaneously Optimized Scale (SOS) to decouple style details and structural coherence; and 3D Gaussian Quality Assessment (3DG-QA), a differentiable aesthetic prior trained on human-rated data to suppress artifacts and enhance visual harmony. Evaluated on NeRF synthetic dataset (objects) and tandt db (scenes) datasets, StyleMe3D outperforms state-of-the-art methods in preserving geometric details (e.g., carvings on sculptures) and ensuring stylistic consistency across scenes (e.g., coherent lighting in landscapes), while maintaining real-time rendering. This work bridges photorealistic 3D GS and artistic stylization, unlocking applications in gaming, virtual worlds, and digital art.

arxiv情報

著者 Cailin Zhuang,Yaoqi Hu,Xuanyang Zhang,Wei Cheng,Jiacheng Bao,Shengqi Liu,Yiying Yang,Xianfang Zeng,Gang Yu,Ming Li
発行日 2025-04-21 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク