ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis

要約

拡散モデルは、テキストからイメージ(T2I)合成に革命をもたらし、高品質の光線現実的な画像を生成しました。
しかし、彼らはまだテキストプロンプトで説明されている空間的関係を適切にするのに苦労しています。
T2I世代の空間情報の欠如に対処するために、既存の方法は通常、外部ネットワークコンディショニングと事前定義されたレイアウトを使用して、計算コストが高くなり、柔軟性が低下します。
私たちのアプローチは、空間的に明示的なプロンプトのキュレーションされたデータセットの上に構築され、laion-400mから細心の注意を払って抽出および合成され、テキストの説明と空間レイアウトの間の正確な調整を確保します。
このデータセットに沿って、生成時間を増やしたり、出力の品質を損なうことなく生成モデルの空間的一貫性を高めるように特別に設計された低ランク適応に基づいた柔軟な微調整フレームワークであるEsploraを提示します。
Esploraに加えて、幾何学的制約に基づいた洗練された評価メトリックを提案し、\ textit {前の}や\ textit {背後}などの3D空間関係をキャプチャします。
これらのメトリックは、T2Iモデルの空間バイアスも公開します。これは、完全に緩和されていない場合でも、生成された画像の空間的一貫性をさらに改善するために、引き裂かれたアルゴリズムによって戦略的に悪用される可能性があります。
私たちの方法は、確立された空間的一貫性ベンチマークで、現在の最先端のフレームワークであるコンパスよりも13.33%上回っています。

要約(オリジナル)

Diffusion models have revolutionized text-to-image (T2I) synthesis, producing high-quality, photorealistic images. However, they still struggle to properly render the spatial relationships described in text prompts. To address the lack of spatial information in T2I generations, existing methods typically use external network conditioning and predefined layouts, resulting in higher computational costs and reduced flexibility. Our approach builds upon a curated dataset of spatially explicit prompts, meticulously extracted and synthesized from LAION-400M to ensure precise alignment between textual descriptions and spatial layouts. Alongside this dataset, we present ESPLoRA, a flexible fine-tuning framework based on Low-Rank Adaptation, specifically designed to enhance spatial consistency in generative models without increasing generation time or compromising the quality of the outputs. In addition to ESPLoRA, we propose refined evaluation metrics grounded in geometric constraints, capturing 3D spatial relations such as \textit{in front of} or \textit{behind}. These metrics also expose spatial biases in T2I models which, even when not fully mitigated, can be strategically exploited by our TORE algorithm to further improve the spatial consistency of generated images. Our method outperforms the current state-of-the-art framework, CoMPaSS, by 13.33% on established spatial consistency benchmarks.

arxiv情報

著者 Andrea Rigo,Luca Stornaiuolo,Mauro Martino,Bruno Lepri,Nicu Sebe
発行日 2025-04-18 15:21:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.4.0 パーマリンク