3DIS: Depth-Driven Decoupled Instance Synthesis for Text-to-Image Generation

要約

テキストからイメージへの生成における制御可能な出力に対する需要の高まりにより、マルチインスタンス生成 (MIG) の進歩が促進され、ユーザーがインスタンスのレイアウトと属性の両方を定義できるようになりました。
ただし、ControlNet などの画像条件付き生成手法とは異なり、MIG 手法は SD2 や SDXL などの最先端のモデルには広く採用されていません。これは主に、インスタンスの位置決めと属性のレンダリングを同時に処理する堅牢なレンダラーを構築するという課題が原因です。

このペーパーでは、MIG プロセスを 2 つの段階に分離する新しいフレームワークである深度駆動型分離インスタンス合成 (3DIS) を紹介します。(i) 正確なインスタンスの位置決めとシーン構成のための粗いシーン深度マップの生成、および (ii) レンダリング
追加のトレーニングを行わずに、任意の基本モデルで事前トレーニングされた ControlNet を使用して、きめの細かい属性を実現します。
当社の 3DIS フレームワークは、カスタム アダプターを LDM3D に統合して正確な深度ベースのレイアウトを実現し、微調整不要の方法を採用して強化されたインスタンス レベルの属性レンダリングを実現します。
COCO-Position および COCO-MIG ベンチマークに関する広範な実験により、3DIS がレイアウト精度と属性レンダリングの両方において既存の方法よりも大幅に優れていることが実証されました。
特に、3DIS はさまざまな基本モデルとのシームレスな互換性を提供し、高度なマルチインスタンス生成のための堅牢で適応性のあるソリューションを提供します。
コードは https://github.com/limuloo/3DIS から入手できます。

要約(オリジナル)

The increasing demand for controllable outputs in text-to-image generation has spurred advancements in multi-instance generation (MIG), allowing users to define both instance layouts and attributes. However, unlike image-conditional generation methods such as ControlNet, MIG techniques have not been widely adopted in state-of-the-art models like SD2 and SDXL, primarily due to the challenge of building robust renderers that simultaneously handle instance positioning and attribute rendering. In this paper, we introduce Depth-Driven Decoupled Instance Synthesis (3DIS), a novel framework that decouples the MIG process into two stages: (i) generating a coarse scene depth map for accurate instance positioning and scene composition, and (ii) rendering fine-grained attributes using pre-trained ControlNet on any foundational model, without additional training. Our 3DIS framework integrates a custom adapter into LDM3D for precise depth-based layouts and employs a finetuning-free method for enhanced instance-level attribute rendering. Extensive experiments on COCO-Position and COCO-MIG benchmarks demonstrate that 3DIS significantly outperforms existing methods in both layout precision and attribute rendering. Notably, 3DIS offers seamless compatibility with diverse foundational models, providing a robust, adaptable solution for advanced multi-instance generation. The code is available at: https://github.com/limuloo/3DIS.

arxiv情報

著者 Dewei Zhou,Ji Xie,Zongxin Yang,Yi Yang
発行日 2024-10-16 15:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク