Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation

要約

【タイトル】
レイアウトガイドされた画像生成のための診断ベンチマークと反復補間

【要約】
・空間制御は、コントロール可能な画像生成における中核的機能である。
・レイアウトガイドされた画像生成の進歩には、類似した空間配置を持つIDデータセットで有望な結果が示されている。
・しかし、未知の任意のレイアウトを持つOODサンプルに直面した場合、これらのモデルがどのように機能するかは不明である。
・本論文では、4つの空間制御スキル(数、位置、サイズ、形)を検証するレイアウトガイドされた画像生成のための診断ベンチマークであるLayoutBenchを提案する。
・2つの最近の代表的なレイアウトガイドされた画像生成手法をベンチマークし、空間制御が良好なIDの場合でも、任意のレイアウトには一般化しないことが観察された。
・次に、インペインティングを介して手順ごとに前景と背景領域を生成する新しいベースラインであるIterInpaintを提案し、LayoutBenchのOODレイアウトにおいて既存のモデルよりも強い汎化性能を示した。
・4つのLayoutBenchスキルに関する定量的および定性的評価、および細分化された分析を実行して、既存のモデルの弱点を明確にする。
・最後に、トレーニングタスク比、クロップ&ペースト対再描画、生成順序などのIterInpaintに関する包括的な抜粋研究を示す。
・プロジェクトウェブサイト: https://layoutbench.github.io

要約(オリジナル)

Spatial control is a core capability in controllable image generation. Advancements in layout-guided image generation have shown promising results on in-distribution (ID) datasets with similar spatial configurations. However, it is unclear how these models perform when facing out-of-distribution (OOD) samples with arbitrary, unseen layouts. In this paper, we propose LayoutBench, a diagnostic benchmark for layout-guided image generation that examines four categories of spatial control skills: number, position, size, and shape. We benchmark two recent representative layout-guided image generation methods and observe that the good ID layout control may not generalize well to arbitrary layouts in the wild (e.g., objects at the boundary). Next, we propose IterInpaint, a new baseline that generates foreground and background regions in a step-by-step manner via inpainting, demonstrating stronger generalizability than existing models on OOD layouts in LayoutBench. We perform quantitative and qualitative evaluation and fine-grained analysis on the four LayoutBench skills to pinpoint the weaknesses of existing models. Lastly, we show comprehensive ablation studies on IterInpaint, including training task ratio, crop&paste vs. repaint, and generation order. Project website: https://layoutbench.github.io

arxiv情報

著者 Jaemin Cho,Linjie Li,Zhengyuan Yang,Zhe Gan,Lijuan Wang,Mohit Bansal
発行日 2023-04-14 15:37:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク