Dish detection in food platters: A framework for automated diet logging and nutrition management

要約

食事は、生活習慣病の蔓延の中心的存在である。正確で無理のない食事記録は、効果的な食事管理やカロリー制限のための重要なボトルネックの1つです。大皿料理からの料理検出は、視覚的に複雑な料理レイアウトのため、困難な問題である。我々は、データ収集、アノテーション、最先端のモデル識別からモバイルアプリの実装まで、食事管理のためのエンドツーエンドの計算フレームワークを提示します。ケーススタディとして、料理の自動検出を困難にする複雑なプレゼンテーションで知られるインド料理の大皿料理のコンテキストでフレームワークを実装します。最も人気のある61種類のインド料理から始め、ディープラーニングベースのオブジェクト検出アーキテクチャの比較分析を通じて、最先端のモデルを特定する。68,005枚の大皿画像と134,814枚の手書き料理注釈の綿密な編集に基づき、まずマルチラベル分類の10種類のアーキテクチャを比較し、ResNet152(mAP=84.51%)を最良のモデルとして特定する。YOLOv8x(mAP=87.70%)は、徹底した性能評価の結果、実装された8つのディープラーニングモデルの中で、料理検出のための最良のモデルアーキテクチャとして浮上した。IndianFood10データセットの最先端モデルと比較することで、このサブセットに対するYOLOv8xの優れた物体検出性能を実証し、Resnet152をマルチラベル分類の最良アーキテクチャとして確立しました。このように、豊富な注釈付きデータで学習させたモデルは、世界各地の料理を含むように拡張することができる。提案されたフレームワークは、食事記録、食品推奨システム、栄養介入、生活習慣病の緩和など、さまざまな用途に応用できるモバイルアプリケーションを通じて実証される。

要約(オリジナル)

Diet is central to the epidemic of lifestyle disorders. Accurate and effortless diet logging is one of the significant bottlenecks for effective diet management and calorie restriction. Dish detection from food platters is a challenging problem due to a visually complex food layout. We present an end-to-end computational framework for diet management, from data compilation, annotation, and state-of-the-art model identification to its mobile app implementation. As a case study, we implement the framework in the context of Indian food platters known for their complex presentation that poses a challenge for the automated detection of dishes. Starting with the 61 most popular Indian dishes, we identify the state-of-the-art model through a comparative analysis of deep-learning-based object detection architectures. Rooted in a meticulous compilation of 68,005 platter images with 134,814 manual dish annotations, we first compare ten architectures for multi-label classification to identify ResNet152 (mAP=84.51%) as the best model. YOLOv8x (mAP=87.70%) emerged as the best model architecture for dish detection among the eight deep-learning models implemented after a thorough performance evaluation. By comparing with the state-of-the-art model for the IndianFood10 dataset, we demonstrate the superior object detection performance of YOLOv8x for this subset and establish Resnet152 as the best architecture for multi-label classification. The models thus trained on richly annotated data can be extended to include dishes from across global cuisines. The proposed framework is demonstrated through a proof-of-concept mobile application with diverse applications for diet logging, food recommendation systems, nutritional interventions, and mitigation of lifestyle disorders.

arxiv情報

著者 Mansi Goel,Shashank Dargar,Shounak Ghatak,Nidhi Verma,Pratik Chauhan,Anushka Gupta,Nikhila Vishnumolakala,Hareesh Amuru,Ekta Gambhir,Ronak Chhajed,Meenal Jain,Astha Jain,Samiksha Garg,Nitesh Narwade,Nikhilesh Verhwani,Abhuday Tiwari,Kirti Vashishtha,Ganesh Bagler
発行日 2023-05-12 15:25:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.CY, I.4.9 パーマリンク