An End-to-end Food Portion Estimation Framework Based on Shape Reconstruction from Monocular Image

要約

食事評価は健康状態のモニタリングに重要な役割を果たす。既存の自己報告方式は面倒で時間がかかり、かなりの偏りと誤差がある。画像ベースの食品部分推定は、食品画像から直接食品のエネルギー値を推定することを目的としており、自動化された食事評価ソリューションに大きな可能性を示している。既存の画像ベースの方法は、シングルビュー画像を使用するか、マルチビュー画像と深度情報を組み込んで食品エネルギーを推定するもので、性能に限界があるか、利用者の負担を生むかのいずれかである。本論文では、3D形状再構成による単眼画像からの食品エネルギー推定のためのエンドツーエンドの深層学習フレームワークを提案する。入力画像から食品オブジェクトのボクセル表現を再構成する生成モデルを活用し、欠落している3D情報を回復する。本手法を一般公開されている食品画像データセットNutrition5kで評価した結果、食品エネルギー推定における平均絶対誤差(MAE)は40.05kCal、平均絶対パーセント誤差(MAPE)は11.47%であった。本手法は推論段階でRGB画像のみを入力として使用し、RGBと深度情報の両方を必要とする既存の手法と比較して遜色のない結果を達成した。

要約(オリジナル)

Dietary assessment is a key contributor to monitoring health status. Existing self-report methods are tedious and time-consuming with substantial biases and errors. Image-based food portion estimation aims to estimate food energy values directly from food images, showing great potential for automated dietary assessment solutions. Existing image-based methods either use a single-view image or incorporate multi-view images and depth information to estimate the food energy, which either has limited performance or creates user burdens. In this paper, we propose an end-to-end deep learning framework for food energy estimation from a monocular image through 3D shape reconstruction. We leverage a generative model to reconstruct the voxel representation of the food object from the input image to recover the missing 3D information. Our method is evaluated on a publicly available food image dataset Nutrition5k, resulting a Mean Absolute Error (MAE) of 40.05 kCal and Mean Absolute Percentage Error (MAPE) of 11.47% for food energy estimation. Our method uses RGB image as the only input at the inference stage and achieves competitive results compared to the existing method requiring both RGB and depth information.

arxiv情報

著者 Zeman Shao,Gautham Vinod,Jiangpeng He,Fengqing Zhu
発行日 2023-08-03 15:17:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク