要約
テキストから画像への生成は驚異的な成果を達成しているが、正確な空間制御性とプロンプトの忠実性は依然として非常に困難である。この限界は、通常、煩雑なプロンプトエンジニアリング、シーンレイアウトの調整、またはしばしば手描きのマスクを必要とする画像編集技術によって対処される。それにもかかわらず、既存の作品は、ラスタライズされたRGB出力画像の典型的な平面的性質のために、シーンの自然なインスタンスレベルの構成性を利用するのに苦労している。この課題を解決するために、我々はMuLAnを紹介する。MuLAnは、RGB画像をインスタンスごとにRGBA分解した44K以上のMUlti-Layer ANnotationsと100K以上のインスタンス画像からなる新しいデータセットである。MuLAnを構築するために、単眼のRGB画像を背景と孤立したインスタンスからなるRGBAレイヤーのスタックに分解する学習不要のパイプラインを開発した。これは、事前に訓練された汎用モデルを使用し、インスタンスの発見と抽出のための画像分解、オクルーデッド領域を再構成するためのインスタンス補完、画像の再組み立てという3つのモジュールを開発することで実現しました。MuLAn-COCOデータセットとMuLAn-LAIONデータセットは、スタイル、構成、複雑さの点で様々な画像分解を含んでいます。MuLAnにより、高品質な画像のインスタンス分解とオクルージョン情報を提供する初のフォトリアリスティックなリソースを提供し、テキストから画像への生成AI研究に新たな道を開きます。これにより、新しい生成・編集技術、特にレイヤー単位のソリューションの開発を促進することを目指しています。MuLAnデータリソースはhttps://MuLAn-dataset.github.io/。
要約(オリジナル)
Text-to-image generation has achieved astonishing results, yet precise spatial controllability and prompt fidelity remain highly challenging. This limitation is typically addressed through cumbersome prompt engineering, scene layout conditioning, or image editing techniques which often require hand drawn masks. Nonetheless, pre-existing works struggle to take advantage of the natural instance-level compositionality of scenes due to the typically flat nature of rasterized RGB output images. Towards adressing this challenge, we introduce MuLAn: a novel dataset comprising over 44K MUlti-Layer ANnotations of RGB images as multilayer, instance-wise RGBA decompositions, and over 100K instance images. To build MuLAn, we developed a training free pipeline which decomposes a monocular RGB image into a stack of RGBA layers comprising of background and isolated instances. We achieve this through the use of pretrained general-purpose models, and by developing three modules: image decomposition for instance discovery and extraction, instance completion to reconstruct occluded areas, and image re-assembly. We use our pipeline to create MuLAn-COCO and MuLAn-LAION datasets, which contain a variety of image decompositions in terms of style, composition and complexity. With MuLAn, we provide the first photorealistic resource providing instance decomposition and occlusion information for high quality images, opening up new avenues for text-to-image generative AI research. With this, we aim to encourage the development of novel generation and editing technology, in particular layer-wise solutions. MuLAn data resources are available at https://MuLAn-dataset.github.io/.
arxiv情報
| 著者 | Petru-Daniel Tudosiu,Yongxin Yang,Shifeng Zhang,Fei Chen,Steven McDonagh,Gerasimos Lampouras,Ignacio Iacobacci,Sarah Parisot |
| 発行日 | 2024-04-03 14:58:00+00:00 |
| arxivサイト | arxiv_id(pdf) |