要約
食品画像を分析するための画像ベースの方法により、従来の方法に伴うユーザーの負担と偏見が軽減されました。
しかし、スマートフォンのカメラやウェアラブルデバイスで撮影された食品の 2D 表現では 3D 情報が失われるため、正確な分量の推定は依然として大きな課題となっています。
この論文では、3D 食品モデルと食事シーンの物理的参照の力を活用して、2D 画像から食品の量とエネルギーの両方を推定する新しいフレームワークを提案します。
私たちの手法は、入力画像内のカメラと食品オブジェクトの姿勢を推定し、推定された姿勢で食品の 3D モデルの画像をレンダリングすることで食事の場面を再現します。
また、新しいデータセット SimpleFood45 も紹介します。これには、45 の食品の 2D 画像と、食品の体積、重量、エネルギーなどの関連する注釈が含まれています。
私たちの方法は、このデータセットで 31.10 kCal (17.67%) の平均誤差を達成し、既存の部分推定方法を上回ります。
要約(オリジナル)
Image-based methods to analyze food images have alleviated the user burden and biases associated with traditional methods. However, accurate portion estimation remains a major challenge due to the loss of 3D information in the 2D representation of foods captured by smartphone cameras or wearable devices. In this paper, we propose a new framework to estimate both food volume and energy from 2D images by leveraging the power of 3D food models and physical reference in the eating scene. Our method estimates the pose of the camera and the food object in the input image and recreates the eating occasion by rendering an image of a 3D model of the food with the estimated poses. We also introduce a new dataset, SimpleFood45, which contains 2D images of 45 food items and associated annotations including food volume, weight, and energy. Our method achieves an average error of 31.10 kCal (17.67%) on this dataset, outperforming existing portion estimation methods.
arxiv情報
著者 | Gautham Vinod,Jiangpeng He,Zeman Shao,Fengqing Zhu |
発行日 | 2024-04-18 15:23:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google