ChefFusion: Multimodal Foundation Model Integrating Recipe and Food Image Generation

要約

食品コンピューティングの分野では重要な研究が行われてきましたが、これらの研究は通常、t2t (食品のタイトルと材料からの命令生成)、i2t (食品画像からのレシピ生成)、または t2i (レシピからの食品画像生成) などの単一タスクに焦点を当てています。
)。
これらのアプローチはいずれも、すべてのモダリティを同時に統合するものではありません。
このギャップに対処するために、t2t、t2i、i2t、it2t、t2ti などのタスクを含む、真のマルチモダリティを実現する新しいフード コンピューティング基盤モデルを導入します。
大規模言語モデル (LLM) と事前トレーニングされた画像エンコーダーおよびデコーダー モデルを活用することで、私たちのモデルは、食品の理解、食品の認識、レシピの生成、食品画像の生成など、食品コンピューティング関連のさまざまなタスクを実行できます。
以前のモデルと比較して、当社の基盤モデルは大幅に幅広い機能を実証し、特に食品画像生成タスクとレシピ生成タスクにおいて優れたパフォーマンスを発揮します。
ChefFusion を GitHub でオープンソース化しました。

要約(オリジナル)

Significant work has been conducted in the domain of food computing, yet these studies typically focus on single tasks such as t2t (instruction generation from food titles and ingredients), i2t (recipe generation from food images), or t2i (food image generation from recipes). None of these approaches integrate all modalities simultaneously. To address this gap, we introduce a novel food computing foundation model that achieves true multimodality, encompassing tasks such as t2t, t2i, i2t, it2t, and t2ti. By leveraging large language models (LLMs) and pre-trained image encoder and decoder models, our model can perform a diverse array of food computing-related tasks, including food understanding, food recognition, recipe generation, and food image generation. Compared to previous models, our foundation model demonstrates a significantly broader range of capabilities and exhibits superior performance, particularly in food image generation and recipe generation tasks. We open-sourced ChefFusion at GitHub.

arxiv情報

著者 Peiyu Li,Xiaobao Huang,Yijun Tian,Nitesh V. Chawla
発行日 2024-09-18 14:24:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク