FMiFood: Multi-modal Contrastive Learning for Food Image Classification

要約

食品画像の分類は、画像ベースの食事評価の基本的なステップであり、食事の機会の画像から参加者の栄養素摂取量を推定することを目的としています。
食品画像の共通の課題は、クラス内の多様性とクラス間の類似性であり、分類パフォーマンスを大幅に妨げる可能性があります。
この問題に対処するために、FMiFood と呼ばれる新しいマルチモーダル対比学習フレームワークを導入します。このフレームワークは、食品カテゴリのテキスト説明などの追加のコンテキスト情報を統合することで、より多くの識別特徴を学習し、分類精度を高めます。
具体的には、複数の重要な情報に焦点を当てるために、テキストと画像の埋め込み間の類似性マッチングを改善する柔軟なマッチング手法を提案します。
さらに、分類の目的をフレームワークに組み込み、テキストの説明を充実させ、より詳細なコンテキストを提供するための GPT-4 の使用を検討します。
私たちの方法は、既存の方法と比較して、UPMC-101 データセットと VFN データセットの両方でパフォーマンスが向上していることを示しています。

要約(オリジナル)

Food image classification is the fundamental step in image-based dietary assessment, which aims to estimate participants’ nutrient intake from eating occasion images. A common challenge of food images is the intra-class diversity and inter-class similarity, which can significantly hinder classification performance. To address this issue, we introduce a novel multi-modal contrastive learning framework called FMiFood, which learns more discriminative features by integrating additional contextual information, such as food category text descriptions, to enhance classification accuracy. Specifically, we propose a flexible matching technique that improves the similarity matching between text and image embeddings to focus on multiple key information. Furthermore, we incorporate the classification objectives into the framework and explore the use of GPT-4 to enrich the text descriptions and provide more detailed context. Our method demonstrates improved performance on both the UPMC-101 and VFN datasets compared to existing methods.

arxiv情報

著者 Xinyue Pan,Jiangpeng He,Fengqing Zhu
発行日 2024-08-07 17:29:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク