Spherical Dense Text-to-Image Synthesis

要約

テキストから画像への最近の進歩(T2I)は合成結果を改善しましたが、レイアウト制御と全方向性パノラマ画像の生成には課題が残っています。
高密度T2I(DT2I)および球形T2I(ST2I)モデルはこれらの問題に対処していますが、これまでのところ統一されたアプローチは存在しません。
DT2Iモデルにパノラマを生成するように促すなど、些細なアプローチは、境界で適切な球形の歪みやシームレスな遷移を生成することはできません。
私たちの研究は、球状の密なテキストからイメージ(SDT2I)が、微調整されたPanoramaモデルにトレーニングのないDT2Iアプローチを統合することで実現できることを示しています。
具体的には、それぞれMultiStitchDiffusion(MSTD)とMultiPanFusion(MPF)を提案し、それぞれMultidiffusionをStitchDiffusionとPanFusionに統合します。
SDT2Iのベンチマークは存在しないため、モデルを評価するための球面レイアウトを含む新しい合成データセットである密な合成観点(DSYNVIEW)をさらに構築します。
私たちの結果は、MSTDが画質と迅速な順守とレイアウトの順守を超えてMPFを上回ることを示しています。
MultiPanFusionはより多様な画像を生成しますが、完璧な前景オブジェクトを合成するのに苦労しています。
私たちは、MPFの改善として、前景での等電子視点からの注意をオフにするブートストラップ結合とオフを提案します。

要約(オリジナル)

Recent advancements in text-to-image (T2I) have improved synthesis results, but challenges remain in layout control and generating omnidirectional panoramic images. Dense T2I (DT2I) and spherical T2I (ST2I) models address these issues, but so far no unified approach exists. Trivial approaches, like prompting a DT2I model to generate panoramas can not generate proper spherical distortions and seamless transitions at the borders. Our work shows that spherical dense text-to-image (SDT2I) can be achieved by integrating training-free DT2I approaches into finetuned panorama models. Specifically, we propose MultiStitchDiffusion (MSTD) and MultiPanFusion (MPF) by integrating MultiDiffusion into StitchDiffusion and PanFusion, respectively. Since no benchmark for SDT2I exists, we further construct Dense-Synthetic-View (DSynView), a new synthetic dataset containing spherical layouts to evaluate our models. Our results show that MSTD outperforms MPF across image quality as well as prompt- and layout adherence. MultiPanFusion generates more diverse images but struggles to synthesize flawless foreground objects. We propose bootstrap-coupling and turning off equirectangular perspective-projection attention in the foreground as an improvement of MPF.

arxiv情報

著者 Timon Winter,Stanislav Frolov,Brian Bernhard Moser,Andreas Dengel
発行日 2025-02-19 13:00:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク