Language-driven Scene Synthesis using Multi-conditional Diffusion Model

要約

シーン合成は、いくつかの産業用途において困難な問題です。
最近では、人間の動き、部屋のレイアウト、または空間グラフを入力として使用してシーンを合成することに多大な努力が向けられています。
しかし、複数のモダリティ、特にテキスト プロンプトを組み合わせてこの問題に取り組んだ研究はほとんどありません。
この論文では、言語駆動のシーン合成タスクを提案します。これは、テキストプロンプト、人間の動き、およびシーン合成のための既存のオブジェクトを統合する新しいタスクです。
他の単一条件の合成タスクとは異なり、この問題には複数の条件が含まれており、それらを処理して統一空間にエンコードするための戦略が必要です。
この課題に対処するために、我々は、元のデータ分布の誘導点を明示的に予測することによって、他の拡散文献の暗黙的な統合アプローチとは異なる、多条件拡散モデルを提示します。
私たちのアプローチが理論的に裏付けられることを示します。
集中的な実験結果は、私たちの方法が最先端のベンチマークを上回り、自然なシーン編集アプリケーションを可能にすることを示しています。
ソース コードとデータセットには https://lang-scene-synth.github.io/ からアクセスできます。

要約(オリジナル)

Scene synthesis is a challenging problem with several industrial applications. Recently, substantial efforts have been directed to synthesize the scene using human motions, room layouts, or spatial graphs as the input. However, few studies have addressed this problem from multiple modalities, especially combining text prompts. In this paper, we propose a language-driven scene synthesis task, which is a new task that integrates text prompts, human motion, and existing objects for scene synthesis. Unlike other single-condition synthesis tasks, our problem involves multiple conditions and requires a strategy for processing and encoding them into a unified space. To address the challenge, we present a multi-conditional diffusion model, which differs from the implicit unification approach of other diffusion literature by explicitly predicting the guiding points for the original data distribution. We demonstrate that our approach is theoretically supportive. The intensive experiment results illustrate that our method outperforms state-of-the-art benchmarks and enables natural scene editing applications. The source code and dataset can be accessed at https://lang-scene-synth.github.io/.

arxiv情報

著者 An Vuong,Minh Nhat Vu,Toan Tien Nguyen,Baoru Huang,Dzung Nguyen,Thieu Vo,Anh Nguyen
発行日 2023-10-24 15:50:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク