要約
食品画像の合成には、既存の料理画像と背景画像を使用して自然な新しい画像を合成する必要があるが、拡散モデルは画像生成において大きな進歩を遂げ、有望な結果をもたらすエンドツーエンドのアーキテクチャの構築を可能にしている。しかし、既存の拡散モデルは、複数の画像からの情報を処理し、融合させるという課題に直面しており、また、高品質な公開データセットへのアクセスが不足しているため、料理画像合成への拡散モデルの適用を妨げている。本論文では、22,000の前景画像、背景画像、およびグランドトゥルースの3値画像ペアからなる、大規模で高品質な食品画像合成データセットFC22kを紹介する。さらに、事前に学習された拡散モデルの能力を活用し、前景情報と背景情報を処理・統合するための融合モジュールを組み込んだ、新しい食品画像合成手法Foodfusionを提案する。この融合された情報は、ノイズ除去UNetのクロスアテンションレイヤーでグローバルな構造情報をマージすることにより、前景の特徴を背景の構造と整合させる。背景の内容と構造をさらに強化するために、内容構造制御モジュール(Content-Structure Control Module)も統合する。広範な実験により、我々の提案手法の有効性と拡張性を実証する。
要約(オリジナル)
Food image composition requires the use of existing dish images and background images to synthesize a natural new image, while diffusion models have made significant advancements in image generation, enabling the construction of end-to-end architectures that yield promising results. However, existing diffusion models face challenges in processing and fusing information from multiple images and lack access to high-quality publicly available datasets, which prevents the application of diffusion models in food image composition. In this paper, we introduce a large-scale, high-quality food image composite dataset, FC22k, which comprises 22,000 foreground, background, and ground truth ternary image pairs. Additionally, we propose a novel food image composition method, Foodfusion, which leverages the capabilities of the pre-trained diffusion models and incorporates a Fusion Module for processing and integrating foreground and background information. This fused information aligns the foreground features with the background structure by merging the global structural information at the cross-attention layer of the denoising UNet. To further enhance the content and structure of the background, we also integrate a Content-Structure Control Module. Extensive experiments demonstrate the effectiveness and scalability of our proposed method.
arxiv情報
著者 | Chaohua Shi,Xuan Wang,Si Shi,Xule Wang,Mingrui Zhu,Nannan Wang,Xinbo Gao |
発行日 | 2024-11-01 02:20:06+00:00 |
arxivサイト | arxiv_id(pdf) |