ChefFusion: Multimodal Foundation Model Integrating Recipe and Food Image Generation


食品コンピューティングの分野では重要な研究が行われてきましたが、これらの研究は通常、t2t (食品のタイトルと材料からの命令生成)、i2t (食品画像からのレシピ生成)、または t2i (レシピからの食品画像生成) などの単一タスクに焦点を当てています。
このギャップに対処するために、t2t、t2i、i2t、it2t、t2ti などのタスクを含む、真のマルチモダリティを実現する新しいフード コンピューティング基盤モデルを導入します。
大規模言語モデル (LLM) と事前トレーニングされた画像エンコーダーおよびデコーダー モデルを活用することで、私たちのモデルは、食品の理解、食品の認識、レシピの生成、食品画像の生成など、食品コンピューティング関連のさまざまなタスクを実行できます。
ChefFusion を GitHub でオープンソース化しました。


Significant work has been conducted in the domain of food computing, yet these studies typically focus on single tasks such as t2t (instruction generation from food titles and ingredients), i2t (recipe generation from food images), or t2i (food image generation from recipes). None of these approaches integrate all modalities simultaneously. To address this gap, we introduce a novel food computing foundation model that achieves true multimodality, encompassing tasks such as t2t, t2i, i2t, it2t, and t2ti. By leveraging large language models (LLMs) and pre-trained image encoder and decoder models, our model can perform a diverse array of food computing-related tasks, including food understanding, food recognition, recipe generation, and food image generation. Compared to previous models, our foundation model demonstrates a significantly broader range of capabilities and exhibits superior performance, particularly in food image generation and recipe generation tasks. We open-sourced ChefFusion at GitHub.


著者 Peiyu Li,Xiaobao Huang,Yijun Tian,Nitesh V. Chawla
発行日 2024-09-18 14:24:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク