要約
潜在拡散モデル (LDM) などの現在の最先端の画像生成モデルは、視覚的に印象的な食品関連の画像を生成する能力を実証しています。
ただし、これらの生成された画像は、多くの場合、現実世界の食べ物の表現の信頼性とは異なる芸術的または超現実的な性質を示します。
この不十分さにより、画像ベースの食事評価のためのトレーニング モデルなど、現実的な食品画像を必要とするアプリケーションには実用的ではありません。
これらの制限に対処するために、テキストの説明からリアルな食品画像を忠実に合成するために特別に設計された潜在拡散モデルである FoodFusion を導入します。
FoodFusion モデルの開発には、広範なオープンソースの食品データセットの活用が含まれており、その結果、300,000 を超える厳選された画像とキャプションのペアが作成されます。
さらに、結果として得られる画像とテキストのペアが現実性と正確性の両方を維持できるようにするために、2 つの異なるデータ クリーニング手法を提案および採用しています。
このようにトレーニングされた FoodFusion モデルは、公的に入手可能な画像生成モデルと比較して、リアリズムと多様性の両方の点で大幅な改善を示す食品画像を生成する顕著な能力を示しています。
私たちは、食品画像合成というこの重要な分野の進歩をサポートするために、データセットと微調整されたモデルを https://bit.ly/genai4good でオープンに共有しています。
要約(オリジナル)
Current state-of-the-art image generation models such as Latent Diffusion Models (LDMs) have demonstrated the capacity to produce visually striking food-related images. However, these generated images often exhibit an artistic or surreal quality that diverges from the authenticity of real-world food representations. This inadequacy renders them impractical for applications requiring realistic food imagery, such as training models for image-based dietary assessment. To address these limitations, we introduce FoodFusion, a Latent Diffusion model engineered specifically for the faithful synthesis of realistic food images from textual descriptions. The development of the FoodFusion model involves harnessing an extensive array of open-source food datasets, resulting in over 300,000 curated image-caption pairs. Additionally, we propose and employ two distinct data cleaning methodologies to ensure that the resulting image-text pairs maintain both realism and accuracy. The FoodFusion model, thus trained, demonstrates a remarkable ability to generate food images that exhibit a significant improvement in terms of both realism and diversity over the publicly available image generation models. We openly share the dataset and fine-tuned models to support advancements in this critical field of food image synthesis at https://bit.ly/genai4good.
arxiv情報
著者 | Olivia Markham,Yuhao Chen,Chi-en Amy Tai,Alexander Wong |
発行日 | 2023-12-06 15:07:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google