SV4D 2.0: Enhancing Spatio-Temporal Consistency in Multi-View Video Diffusion for High-Quality 4D Generation

要約

動的3Dアセット生成のためのマルチビュービデオ拡散モデルであるStable Video 4d 2.0(SV4D 2.0)を紹介します。
前身のSV4Dと比較して、SV4D 2.0はオクルージョンや大きな動きにより堅牢であり、現実世界のビデオによりよく一般化し、詳細なシャープネスと時空間整合性の観点から高品質の出力を生成します。
複数の側面に重要な改善を導入することでこれを達成します。1)ネットワークアーキテクチャ:参照マルチビューの依存性を排除し、3Dとフレームの注意のためのブレンディングメカニズムの設計を排除する、2)データの質と量のデータ:3)トレーニング戦略:トレーニング戦略:より良い一般化のためのプログレッシブ3D-4Dトレーニングの採用4)
広範な実験は、視覚的および定量的にSV4D 2.0による有意なパフォーマンスゲインを示し、SV4Dと比較して、小説ビデオ統合と4D最適化(-12 \%LPIPSおよび-24 \%FV4D)で、より良いディテール(-14 \%LPIPS)と4D一貫性(-44 \%FV4D)を達成します。
プロジェクトページ:https://sv4d2.0.github.io。

要約(オリジナル)

We present Stable Video 4D 2.0 (SV4D 2.0), a multi-view video diffusion model for dynamic 3D asset generation. Compared to its predecessor SV4D, SV4D 2.0 is more robust to occlusions and large motion, generalizes better to real-world videos, and produces higher-quality outputs in terms of detail sharpness and spatio-temporal consistency. We achieve this by introducing key improvements in multiple aspects: 1) network architecture: eliminating the dependency of reference multi-views and designing blending mechanism for 3D and frame attention, 2) data: enhancing quality and quantity of training data, 3) training strategy: adopting progressive 3D-4D training for better generalization, and 4) 4D optimization: handling 3D inconsistency and large motion via 2-stage refinement and progressive frame sampling. Extensive experiments demonstrate significant performance gain by SV4D 2.0 both visually and quantitatively, achieving better detail (-14\% LPIPS) and 4D consistency (-44\% FV4D) in novel-view video synthesis and 4D optimization (-12\% LPIPS and -24\% FV4D) compared to SV4D. Project page: https://sv4d2.0.github.io.

arxiv情報

著者 Chun-Han Yao,Yiming Xie,Vikram Voleti,Huaizu Jiang,Varun Jampani
発行日 2025-03-20 17:53:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SV4D 2.0: Enhancing Spatio-Temporal Consistency in Multi-View Video Diffusion for High-Quality 4D Generation はコメントを受け付けていません

Scale-wise Distillation of Diffusion Models

要約

SWDは、拡散ベースの少ないステップジェネレーターの次のスケール予測アイデアを効果的に採用する拡散モデル(DMS)のスケールごとの蒸留フレームワーク(DMS)を提示します。
より詳細には、SWDは、拡散プロセスを暗黙的なスペクトル自己収集に関連付ける最近の洞察に触発されています。
DMSは、より低いデータ解像度で生成を開始し、パフォーマンスを失うことなく各除去ステップでサンプルを徐々にアップスケールできると仮定しますが、計算コストを大幅に削減します。
SWDは、このアイデアを、分布マッチングに基づいて既存の拡散蒸留方法に自然に統合します。
また、ターゲット分布とより細かい粒度の類似性を強制する新しいパッチ損失を導入することにより、分布マッチングアプローチファミリーを豊かにします。
最先端のテキストからイメージへの拡散モデルに適用されると、SWDは2つの完全な解像度の手順の推論時間に近づき、自動化されたメトリックと人間の好みの研究によって証明されるように、同じ計算予算の下で対応物を大幅に上回ります。

要約(オリジナル)

We present SwD, a scale-wise distillation framework for diffusion models (DMs), which effectively employs next-scale prediction ideas for diffusion-based few-step generators. In more detail, SwD is inspired by the recent insights relating diffusion processes to the implicit spectral autoregression. We suppose that DMs can initiate generation at lower data resolutions and gradually upscale the samples at each denoising step without loss in performance while significantly reducing computational costs. SwD naturally integrates this idea into existing diffusion distillation methods based on distribution matching. Also, we enrich the family of distribution matching approaches by introducing a novel patch loss enforcing finer-grained similarity to the target distribution. When applied to state-of-the-art text-to-image diffusion models, SwD approaches the inference times of two full resolution steps and significantly outperforms the counterparts under the same computation budget, as evidenced by automated metrics and human preference studies.

arxiv情報

著者 Nikita Starodubcev,Denis Kuznedelev,Artem Babenko,Dmitry Baranchuk
発行日 2025-03-20 17:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Scale-wise Distillation of Diffusion Models はコメントを受け付けていません

SA-Occ: Satellite-Assisted 3D Occupancy Prediction in Real World

要約

既存のビジョンベースの3D占有予測法は、衛星ビューを組み込むことの潜在的な利点を無視して、ストリートビュー画像に排他的に依存しているため、本質的に精度が制限されています。
最初の衛星支援3D占有予測モデルであるSA-OCCを提案します。これは、GPS&IMUを活用して、歴史的でありながら入手可能な衛星画像をリアルタイムアプリケーションに統合し、オクルージョンと離れた領域のパフォーマンスを伴うエゴベヒクルの知覚の制限を効果的に緩和します。
クロスビューの知覚の中心的な課題に対処するために、次の提案を提案します。1)動的分解融合。これは、衛星と街路ビューの間の時間的非同期によって引き起こされる動的領域の不一致を解決する。
2)3D-Projガイダンス、本質的に2D衛星画像からの3D機能抽出を強化するモジュール。
3)通りと衛星ビューの間のサンプリング密度を整列させる均一なサンプリングアライメント。
OCC3Dナスセンで評価されたSA-OCCは、特に単一フレームの方法で最先端のパフォーマンスを達成し、39.05%MIOU(6.97%の改善)で、フレームあたり6.93ミリ秒の追加レイテンシのみが発生します。
当社のコードと新しくキュレーションされたデータセットは、https://github.com/chenchen235/sa-occで入手できます。

要約(オリジナル)

Existing vision-based 3D occupancy prediction methods are inherently limited in accuracy due to their exclusive reliance on street-view imagery, neglecting the potential benefits of incorporating satellite views. We propose SA-Occ, the first Satellite-Assisted 3D occupancy prediction model, which leverages GPS & IMU to integrate historical yet readily available satellite imagery into real-time applications, effectively mitigating limitations of ego-vehicle perceptions, involving occlusions and degraded performance in distant regions. To address the core challenges of cross-view perception, we propose: 1) Dynamic-Decoupling Fusion, which resolves inconsistencies in dynamic regions caused by the temporal asynchrony between satellite and street views; 2) 3D-Proj Guidance, a module that enhances 3D feature extraction from inherently 2D satellite imagery; and 3) Uniform Sampling Alignment, which aligns the sampling density between street and satellite views. Evaluated on Occ3D-nuScenes, SA-Occ achieves state-of-the-art performance, especially among single-frame methods, with a 39.05% mIoU (a 6.97% improvement), while incurring only 6.93 ms of additional latency per frame. Our code and newly curated dataset are available at https://github.com/chenchen235/SA-Occ.

arxiv情報

著者 Chen Chen,Zhirui Wang,Taowei Sheng,Yi Jiang,Yundu Li,Peirui Cheng,Luning Zhang,Kaiqiang Chen,Yanfeng Hu,Xue Yang,Xian Sun
発行日 2025-03-20 17:54:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SA-Occ: Satellite-Assisted 3D Occupancy Prediction in Real World はコメントを受け付けていません

Wolf: Dense Video Captioning with a World Summarization Framework

要約

正確なビデオキャプションのための世界要約フレームワークであるWolfを提案します。
Wolfは、視覚モデル(VLMS)の相補的な強さを活用して、専門家の混合アプローチを採用する自動キャプションフレームワークです。
画像モデルとビデオモデルの両方を利用することにより、フレームワークはさまざまなレベルの情報をキャプチャし、効率的に要約します。
私たちのアプローチを適用して、ビデオの理解、自動ラベル、キャプションを強化することができます。
キャプションの品質を評価するために、LLMベースのメトリックであるCapscoreを導入して、グラウンドトゥルースキャプションと比較して生成されたキャプションの類似性と品質を評価します。
さらに、包括的な比較を促進するために、自律運転、一般的なシーン、ロボット工学の3つのドメインに4つのヒトが解決したデータセットを構築します。
Wolfは、研究コミュニティ(Vila1.5、Cogagent)および商用ソリューション(Gemini-Pro-1.5、GPT-4V)からの最先端のアプローチと比較して、優れたキャプションパフォーマンスを達成することを示しています。
たとえば、GPT-4Vと比較して、Wolfは、挑戦的なドライビングビデオで、品質ごとに55.6%、類似性の両方を77.4%改善します。
最後に、ビデオキャプションのベンチマークを確立し、ビデオの理解、キャプション、およびデータの調整の進歩を加速することを目指して、リーダーボードを導入します。
Webページ:https://wolfv0.github.io/。

要約(オリジナル)

We propose Wolf, a WOrLd summarization Framework for accurate video captioning. Wolf is an automated captioning framework that adopts a mixture-of-experts approach, leveraging complementary strengths of Vision Language Models (VLMs). By utilizing both image and video models, our framework captures different levels of information and summarizes them efficiently. Our approach can be applied to enhance video understanding, auto-labeling, and captioning. To evaluate caption quality, we introduce CapScore, an LLM-based metric to assess the similarity and quality of generated captions compared to the ground truth captions. We further build four human-annotated datasets in three domains: autonomous driving, general scenes, and robotics, to facilitate comprehensive comparisons. We show that Wolf achieves superior captioning performance compared to state-of-the-art approaches from the research community (VILA1.5, CogAgent) and commercial solutions (Gemini-Pro-1.5, GPT-4V). For instance, in comparison with GPT-4V, Wolf improves CapScore both quality-wise by 55.6% and similarity-wise by 77.4% on challenging driving videos. Finally, we establish a benchmark for video captioning and introduce a leaderboard, aiming to accelerate advancements in video understanding, captioning, and data alignment. Webpage: https://wolfv0.github.io/.

arxiv情報

著者 Boyi Li,Ligeng Zhu,Ran Tian,Shuhan Tan,Yuxiao Chen,Yao Lu,Yin Cui,Sushant Veer,Max Ehrlich,Jonah Philion,Xinshuo Weng,Fuzhao Xue,Linxi Fan,Yuke Zhu,Jan Kautz,Andrew Tao,Ming-Yu Liu,Sanja Fidler,Boris Ivanovic,Trevor Darrell,Jitendra Malik,Song Han,Marco Pavone
発行日 2025-03-20 17:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Wolf: Dense Video Captioning with a World Summarization Framework はコメントを受け付けていません

VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness

要約

最近の大規模なテキストからイメージまでの拡散モデルは、フォトリアリスティックな画像を生成しますが、さまざまな相互作用単語を区別する能力が限られているため、人間とオブジェクトの間の相互作用を正確に描写するのに苦労します。
この作業では、テキスト間拡散モデル内で微妙な相互作用をキャプチャするという課題に対処するためにVerbdiffを提案します。
Verbdiffは、相互作用の単語とオブジェクトの間のバイアスを弱める新しいテキストから画像への生成モデルであり、相互作用の理解を高めます。
具体的には、周波数ベースのアンカー語からさまざまな相互作用ワードを解き、生成された画像からローカライズされた相互作用領域を活用して、モデルが特徴的な条件なしで特徴的な単語でセマンティクスをよりよくキャプチャできるようにします。
私たちのアプローチにより、モデルは人間とオブジェクトの間の意図した相互作用を正確に理解し、指定された動詞と並べられた正確な相互作用を備えた高品質の画像を作成できます。
HICO-DETデータセットでの広範な実験は、以前のアプローチと比較した方法の有効性を示しています。

要約(オリジナル)

Recent large-scale text-to-image diffusion models generate photorealistic images but often struggle to accurately depict interactions between humans and objects due to their limited ability to differentiate various interaction words. In this work, we propose VerbDiff to address the challenge of capturing nuanced interactions within text-to-image diffusion models. VerbDiff is a novel text-to-image generation model that weakens the bias between interaction words and objects, enhancing the understanding of interactions. Specifically, we disentangle various interaction words from frequency-based anchor words and leverage localized interaction regions from generated images to help the model better capture semantics in distinctive words without extra conditions. Our approach enables the model to accurately understand the intended interaction between humans and objects, producing high-quality images with accurate interactions aligned with specified verbs. Extensive experiments on the HICO-DET dataset demonstrate the effectiveness of our method compared to previous approaches.

arxiv情報

著者 SeungJu Cha,Kwanyoung Lee,Ye-Chan Kim,Hyunwoo Oh,Dong-Jin Kim
発行日 2025-03-20 17:56:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.MM | VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness はコメントを受け付けていません

RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

要約

効果的な具体化されたマルチエージェントシステムを設計することは、ドメイン全体で複雑な現実世界のタスクを解決するために重要です。
マルチエージェント具体化されたシステムの複雑さにより、既存の方法は、そのようなシステムの安全で効率的なトレーニングデータを自動的に生成できません。
この目的のために、具体化されたエージェント間のコラボレーションから生じる課題に対処する、具体化されたマルチエージェントシステムの構成制約の概念を提案します。
さまざまな種類の制約に合わせたさまざまなインターフェイスを設計し、物理的な世界とのシームレスな相互作用を可能にします。
組成の制約と特異的に設計されたインターフェイスを活用して、具体化されたマルチエージェントシステム用の自動データ収集フレームワークを開発し、具体化されたマルチエージェント操作であるRobofactoryの最初のベンチマークを導入します。
Robofactoryベンチマークに基づいて、模倣学習の方法を適応および評価し、さまざまな難易度エージェントタスクでそのパフォーマンスを分析しました。
さらに、安全で効率的な具体化されたマルチエージェントシステムを構築することを目的とした、マルチエージェント模倣学習のためのアーキテクチャとトレーニング戦略を探ります。

要約(オリジナル)

Designing effective embodied multi-agent systems is critical for solving complex real-world tasks across domains. Due to the complexity of multi-agent embodied systems, existing methods fail to automatically generate safe and efficient training data for such systems. To this end, we propose the concept of compositional constraints for embodied multi-agent systems, addressing the challenges arising from collaboration among embodied agents. We design various interfaces tailored to different types of constraints, enabling seamless interaction with the physical world. Leveraging compositional constraints and specifically designed interfaces, we develop an automated data collection framework for embodied multi-agent systems and introduce the first benchmark for embodied multi-agent manipulation, RoboFactory. Based on RoboFactory benchmark, we adapt and evaluate the method of imitation learning and analyzed its performance in different difficulty agent tasks. Furthermore, we explore the architectures and training strategies for multi-agent imitation learning, aiming to build safe and efficient embodied multi-agent systems.

arxiv情報

著者 Yiran Qin,Li Kang,Xiufeng Song,Zhenfei Yin,Xiaohong Liu,Xihui Liu,Ruimao Zhang,Lei Bai
発行日 2025-03-20 17:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints はコメントを受け付けていません

M3: 3D-Spatial MultiModal Memory

要約

3D Spatial Multimodal Memory(M3)は、視覚的知覚のためにビデオソースを通じて中規模の静的シーンに関する情報を保持するように設計されたマルチモーダルメモリシステムです。
M3は、3Dガウスのスプラットテクニックを基礎モデルと統合することにより、幅広い知識を網羅し、粒度全体に特徴表現をレンダリングできるマルチモーダルメモリを構築します。
調査では、機能のスプラッティングに関する以前の作業で2つの重要な課題を特定します。(1)各ガウス原始の高次元機能を保存する際の計算上の制約、および(2)蒸留機能と基礎モデル機能の間の誤った整列または情報の損失。
これらの課題に対処するために、主要なシーンコンポーネントとガウスメモリの注意の主要なコンポーネントを備えたM3を提案し、効率的なトレーニングと推論を可能にします。
M3を検証するために、特徴の類似性とダウンストリームタスクの包括的な定量的評価、およびガウスメモリの注意のピクセルトレースを強調する定性的視覚化を実施します。
私たちのアプローチには、ビジョン言語モデル(VLMS)、知覚モデル、大規模なマルチモーダルおよび言語モデル(LMMS/LLMS)など、多様な基礎モデルが含まれます。
さらに、現実世界の適用性を示すために、4倍のロボットに屋内シーンにM3の特徴フィールドを展開します。
特に、M3は、3D機能の蒸留におけるコア圧縮の課題に対処する最初の作業であると主張しています。

要約(オリジナル)

We present 3D Spatial MultiModal Memory (M3), a multimodal memory system designed to retain information about medium-sized static scenes through video sources for visual perception. By integrating 3D Gaussian Splatting techniques with foundation models, M3 builds a multimodal memory capable of rendering feature representations across granularities, encompassing a wide range of knowledge. In our exploration, we identify two key challenges in previous works on feature splatting: (1) computational constraints in storing high-dimensional features for each Gaussian primitive, and (2) misalignment or information loss between distilled features and foundation model features. To address these challenges, we propose M3 with key components of principal scene components and Gaussian memory attention, enabling efficient training and inference. To validate M3, we conduct comprehensive quantitative evaluations of feature similarity and downstream tasks, as well as qualitative visualizations to highlight the pixel trace of Gaussian memory attention. Our approach encompasses a diverse range of foundation models, including vision-language models (VLMs), perception models, and large multimodal and language models (LMMs/LLMs). Furthermore, to demonstrate real-world applicability, we deploy M3’s feature field in indoor scenes on a quadruped robot. Notably, we claim that M3 is the first work to address the core compression challenges in 3D feature distillation.

arxiv情報

著者 Xueyan Zou,Yuchen Song,Ri-Zhao Qiu,Xuanbin Peng,Jianglong Ye,Sifei Liu,Xiaolong Wang
発行日 2025-03-20 17:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | M3: 3D-Spatial MultiModal Memory はコメントを受け付けていません

DreamTexture: Shape from Virtual Texture with Analysis by Augmentation

要約

DreamFusionは、生成モデルの進歩と微分可能なレンダリングを組み合わせることにより、仮想ビューからの監視されていない3D再構築のための新しいパラダイムを確立しました。
ただし、基礎となるマルチビューレンダリングは、大規模な生成モデルからの監督とともに、計算的に高価であり、制約が不十分です。
DreamTextureを提案します。これは、単眼の深さの手がかりを活用して3Dオブジェクトを再構築する新しい姿勢からテクスチャからの斬新なアプローチです。
私たちのメソッドテクスチャは、仮想テクスチャを入力の実際の深さのキューに合わせて入力画像をテクスチャにし、最新の拡散モデルにエンコードされた単眼のジオメトリの固有の理解を活用します。
次に、新しいコンフォーマルマップ最適化を使用して、仮想テクスチャの変形から深さを再構築します。これにより、メモリ集約的な体積表現が軽減されます。
私たちの実験は、生成モデルが単眼の形状キューの理解を持っていることを明らかにしています。これは、テクスチャキューを増強して整列させることで抽出できることが明らかになりました。

要約(オリジナル)

DreamFusion established a new paradigm for unsupervised 3D reconstruction from virtual views by combining advances in generative models and differentiable rendering. However, the underlying multi-view rendering, along with supervision from large-scale generative models, is computationally expensive and under-constrained. We propose DreamTexture, a novel Shape-from-Virtual-Texture approach that leverages monocular depth cues to reconstruct 3D objects. Our method textures an input image by aligning a virtual texture with the real depth cues in the input, exploiting the inherent understanding of monocular geometry encoded in modern diffusion models. We then reconstruct depth from the virtual texture deformation with a new conformal map optimization, which alleviates memory-intensive volumetric representations. Our experiments reveal that generative models possess an understanding of monocular shape cues, which can be extracted by augmenting and aligning texture cues — a novel monocular reconstruction paradigm that we call Analysis by Augmentation.

arxiv情報

著者 Ananta R. Bhattarai,Xingzhe He,Alla Sheffer,Helge Rhodin
発行日 2025-03-20 17:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | DreamTexture: Shape from Virtual Texture with Analysis by Augmentation はコメントを受け付けていません

InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity

要約

特にフラックスのような高度な拡散変圧器(DIT)を使用して、柔軟で忠実なアイデンティティに保存された画像生成を実現することは恐ろしいままです。
このタスクにDITを活用する最も早い堅牢なフレームワークの1つであるInfiniteYou(INFU)を紹介します。
INFUは、アイデンティティの類似性が不十分である、テキスト画像の整合性が低い、低生成品質と美学など、既存の方法の重要な問題に対処します。
Infuの中心はInfusenetです。これは、保証能力を維持しながらアイデンティティの類似性を高めるために、Infusenetです。
合成シングルパーソンマルトサンプル(SPMS)データを備えた事前削除および監視付き微調整(SFT)を含むマルチステージトレーニング戦略は、テキストイメージのアライメントをさらに改善し、画質を改善し、顔のコピーパスティングを軽減します。
広範な実験は、INFUが既存のベースラインを上回り、最先端のパフォーマンスを達成することを示しています。
さらに、INFUのプラグアンドプレイ設計により、さまざまな既存の方法との互換性が保証され、より広範なコミュニティに貴重な貢献が提供されます。

要約(オリジナル)

Achieving flexible and high-fidelity identity-preserved image generation remains formidable, particularly with advanced Diffusion Transformers (DiTs) like FLUX. We introduce InfiniteYou (InfU), one of the earliest robust frameworks leveraging DiTs for this task. InfU addresses significant issues of existing methods, such as insufficient identity similarity, poor text-image alignment, and low generation quality and aesthetics. Central to InfU is InfuseNet, a component that injects identity features into the DiT base model via residual connections, enhancing identity similarity while maintaining generation capabilities. A multi-stage training strategy, including pretraining and supervised fine-tuning (SFT) with synthetic single-person-multiple-sample (SPMS) data, further improves text-image alignment, ameliorates image quality, and alleviates face copy-pasting. Extensive experiments demonstrate that InfU achieves state-of-the-art performance, surpassing existing baselines. In addition, the plug-and-play design of InfU ensures compatibility with various existing methods, offering a valuable contribution to the broader community.

arxiv情報

著者 Liming Jiang,Qing Yan,Yumin Jia,Zichuan Liu,Hao Kang,Xin Lu
発行日 2025-03-20 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity はコメントを受け付けていません

SynCity: Training-Free Generation of 3D Worlds

要約

テキストの説明から3Dワールドを生成するという課題に対処します。
トレーニングおよび最適化のないアプローチである同期を提案します。これは、事前に訓練された3D生成モデルの幾何学的精度と、2D画像ジェネレーターの芸術的汎用性を活用して、大規模で高品質の3Dスペースを作成します。
ほとんどの3D生成モデルはオブジェクト中心であり、大規模な世界を生成することはできませんが、3Dおよび2Dジェネレーターを組み合わせて拡大し続けるシーンを生成する方法を示します。
タイルベースのアプローチを通じて、レイアウトとシーンの外観を細かく制御できます。
世界はタイルごとに生成され、それぞれの新しいタイルがその世界コンテスト内で生成され、シーンと融合します。
Syncityは、詳細と多様性が豊富な、魅力的で没入型のシーンを生成します。

要約(オリジナル)

We address the challenge of generating 3D worlds from textual descriptions. We propose SynCity, a training- and optimization-free approach, which leverages the geometric precision of pre-trained 3D generative models and the artistic versatility of 2D image generators to create large, high-quality 3D spaces. While most 3D generative models are object-centric and cannot generate large-scale worlds, we show how 3D and 2D generators can be combined to generate ever-expanding scenes. Through a tile-based approach, we allow fine-grained control over the layout and the appearance of scenes. The world is generated tile-by-tile, and each new tile is generated within its world-context and then fused with the scene. SynCity generates compelling and immersive scenes that are rich in detail and diversity.

arxiv情報

著者 Paul Engstler,Aleksandar Shtedritski,Iro Laina,Christian Rupprecht,Andrea Vedaldi
発行日 2025-03-20 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SynCity: Training-Free Generation of 3D Worlds はコメントを受け付けていません