Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation

要約

タイトル:レイアウトガイドされた画像生成のための診断ベンチマークとイテレーション補完

要約:
– レイアウト制御は、制御可能な画像生成における核心の能力である。
– レイアウトガイドされた画像生成の進歩によって、類似した空間構成を持つin-distribution (ID)データセットによる有望な結果が示された。
– しかし、これらのモデルが見たことのないレイアウトを持つout-of-distribution (OOD)サンプルに直面した場合のパフォーマンスは明確ではない。
– この論文では、レイアウトガイドされた画像生成のための診断ベンチマークであるLayoutBenchを提案する。そのベンチマークは、number、position、size、shapeの4つの空間制御スキルを検証するものである。
– 2つの最近の代表的なレイアウトガイドされた画像生成手法をLayoutBenchでベンチマークし、良好なIDレイアウト制御が野生の任意のレイアウト(例えば、境界のオブジェクト)に一般化する保証がないことを観察した。
– 次に、Inpaintを介してステップバイステップで前景・背景領域を生成するIterInpaintという新しいベースラインを提案し、LayoutBenchにおけるOODレイアウトに対する既存のモデルよりも強い一般化性を示す。
– 4つのLayoutBenchのスキルについて定量的・定性的な評価を行い、既存のモデルの弱点を特定する。
– 最後に、トレーニングタスク比率、crop&paste対repaint、生成順序など、IterInpaintに対する包括的なアブレーション研究を示す。プロジェクトのウェブサイト:https://layoutbench.github.io

要約(オリジナル)

Spatial control is a core capability in controllable image generation. Advancements in layout-guided image generation have shown promising results on in-distribution (ID) datasets with similar spatial configurations. However, it is unclear how these models perform when facing out-of-distribution (OOD) samples with arbitrary, unseen layouts. In this paper, we propose LayoutBench, a diagnostic benchmark for layout-guided image generation that examines four categories of spatial control skills: number, position, size, and shape. We benchmark two recent representative layout-guided image generation methods and observe that the good ID layout control may not generalize well to arbitrary layouts in the wild (e.g., objects at the boundary). Next, we propose IterInpaint, a new baseline that generates foreground and background regions in a step-by-step manner via inpainting, demonstrating stronger generalizability than existing models on OOD layouts in LayoutBench. We perform quantitative and qualitative evaluation and fine-grained analysis on the four LayoutBench skills to pinpoint the weaknesses of existing models. Lastly, we show comprehensive ablation studies on IterInpaint, including training task ratio, crop&paste vs. repaint, and generation order. Project website: https://layoutbench.github.io

arxiv情報

著者 Jaemin Cho,Linjie Li,Zhengyuan Yang,Zhe Gan,Lijuan Wang,Mohit Bansal
発行日 2023-04-13 16:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク