要約
テキストプロンプトから高品質の多層透明な画像を生成すると、新しいレベルのクリエイティブコントロールのロックが解除され、ユーザーがLLMSからテキスト出力を編集するのと同じくらい簡単に編集できます。
ただし、多層生成モデルの開発は、多層透明なデータの大規模で高品質のコーパスが存在しないため、従来のテキストから画像モデルの開発に遅れをとっています。
この論文では、次の基本的な課題に対処します。(i)最初のオープン、超高忠実度のプリスマレイヤー(Prismlayerspro)データセットの200K(20K)マルチレイヤー透明な画像の正確なアルファマットをリリースします。
オープンソースのマルチレイヤー生成モデル、ART+は、最新のテキストからイメージの生成モデルの美学に一致します。
主要な技術的貢献には、正確なアルファマットで高品質の単一透明な層の生成に優れているLayerFluxと、複数のレイヤーフラックス出力を完全な画像に構成し、ヒトが解決したセマンティックレイアウトに導かれます。
高品質を確保するために、厳密なフィルタリング段階を適用して、アーティファクトとセマンティックミスマッチを削除し、その後に人間の選択を行います。
合成Prismlayersproの最先端のアートモデルを微調整すると、ART+がART+を生成します。これにより、元のアートは、頭と頭のユーザー研究の比較の60%でオリジナルアートを上回り、フラックスによって生成された画像の視覚的品質と一致します。
私たちの作業は、多層透明な画像生成タスクのための強固なデータセット基盤を確立し、正確で編集可能な、視覚的に魅力的な層状画像を必要とする研究とアプリケーションを可能にすると予想しています。
要約(オリジナル)
Generating high-quality, multi-layer transparent images from text prompts can unlock a new level of creative control, allowing users to edit each layer as effortlessly as editing text outputs from LLMs. However, the development of multi-layer generative models lags behind that of conventional text-to-image models due to the absence of a large, high-quality corpus of multi-layer transparent data. In this paper, we address this fundamental challenge by: (i) releasing the first open, ultra-high-fidelity PrismLayers (PrismLayersPro) dataset of 200K (20K) multilayer transparent images with accurate alpha mattes, (ii) introducing a trainingfree synthesis pipeline that generates such data on demand using off-the-shelf diffusion models, and (iii) delivering a strong, open-source multi-layer generation model, ART+, which matches the aesthetics of modern text-to-image generation models. The key technical contributions include: LayerFLUX, which excels at generating high-quality single transparent layers with accurate alpha mattes, and MultiLayerFLUX, which composes multiple LayerFLUX outputs into complete images, guided by human-annotated semantic layout. To ensure higher quality, we apply a rigorous filtering stage to remove artifacts and semantic mismatches, followed by human selection. Fine-tuning the state-of-the-art ART model on our synthetic PrismLayersPro yields ART+, which outperforms the original ART in 60% of head-to-head user study comparisons and even matches the visual quality of images generated by the FLUX.1-[dev] model. We anticipate that our work will establish a solid dataset foundation for the multi-layer transparent image generation task, enabling research and applications that require precise, editable, and visually compelling layered imagery.
arxiv情報
著者 | Junwen Chen,Heyang Jiang,Yanbin Wang,Keming Wu,Ji Li,Chao Zhang,Keiji Yanai,Dong Chen,Yuhui Yuan |
発行日 | 2025-05-28 16:09:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google