FoodLMM: A Versatile Food Assistant using Large Multi-modal Model


大規模マルチモーダル モデル (LMM) は、多くの視覚言語タスクにおいて目覚ましい進歩を遂げました。
それにもかかわらず、特定のドメインにおける一般的な LMM のパフォーマンスはまだ満足のいくものとは言えません。
この論文では、食品認識、材料認識、レシピ生成、栄養推定、食品セグメンテーション、マルチラウンド会話などのさまざまな機能を備えた LMM に基づく多用途食品アシスタント FoodLMM を提案します。
FoodLMM が純粋なテキスト出力を超えたタスクを処理できるようにするために、一連の新しいタスク固有のトークンとヘッドを導入し、モデルが食品の栄養価と複数のセグメンテーション マスクを予測できるようにします。
第 2 段階では、マルチラウンド会話データセットと推論セグメンテーション データセットを構築してモデルを微調整し、専門的な対話を実施し、食品分野の複雑な推論に基づいてセグメンテーション マスクを生成できるようにします。
当社の微調整された FoodLMM は、いくつかの食品ベンチマークにわたって最先端の結果を達成します。


Large Multi-modal Models (LMMs) have made impressive progress in many vision-language tasks. Nevertheless, the performance of general LMMs in specific domains is still far from satisfactory. This paper proposes FoodLMM, a versatile food assistant based on LMMs with various capabilities, including food recognition, ingredient recognition, recipe generation, nutrition estimation, food segmentation and multi-round conversation. To facilitate FoodLMM to deal with tasks beyond pure text output, we introduce a series of novel task-specific tokens and heads, enabling the model to predict food nutritional values and multiple segmentation masks. We adopt a two-stage training strategy. In the first stage, we utilize multiple public food benchmarks for multi-task learning by leveraging the instruct-following paradigm. In the second stage, we construct a multi-round conversation dataset and a reasoning segmentation dataset to fine-tune the model, enabling it to conduct professional dialogues and generate segmentation masks based on complex reasoning in the food domain. Our fine-tuned FoodLMM achieves state-of-the-art results across several food benchmarks. We will make our code, models and datasets publicly available.


著者 Yuehao Yin,Huiyan Qi,Bin Zhu,Jingjing Chen,Yu-Gang Jiang,Chong-Wah Ngo
発行日 2024-04-12 14:21:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク