An Improved Encoder-Decoder Framework for Food EnergyEstimation

要約

健康的なライフスタイルを維持するために、食事評価は欠かせない。画像ベースの自動食事評価は、画像撮影デバイス(携帯電話など)の普及に伴い、研究分野が拡大している。本研究では、1枚の単眼画像から食物のエネルギーを推定する。これは、画像に存在するエネルギー情報の量が限られており、抽出が困難なため困難なタスクである。エンコーダは画像を、食品のエネルギー情報を抽出しやすい形式で埋め込んだ表現に変換し、デコーダはそこからエネルギー情報を抽出する。本手法を実装するために、登録栄養士によって検証された、食事シーン画像、食品アイテムのセグメンテーションマスク、およびグランドトゥルースのカロリー値を含む、高品質の食品画像データセットをコンパイルする。本手法は、MAPEとMAEの点で、それぞれ10%以上と30kCalだけ、以前のカロリー推定法を改善する。

要約(オリジナル)

Dietary assessment is essential to maintaining a healthy lifestyle. Automatic image-based dietary assessment is a growing field of research due to the increasing prevalence of image capturing devices (e.g. mobile phones). In this work, we estimate food energy from a single monocular image, a difficult task due to the limited hard-to-extract amount of energy information present in an image. To do so, we employ an improved encoder-decoder framework for energy estimation; the encoder transforms the image into a representation embedded with food energy information in an easier-to-extract format, which the decoder then extracts the energy information from. To implement our method, we compile a high-quality food image dataset verified by registered dietitians containing eating scene images, food-item segmentation masks, and ground truth calorie values. Our method improves upon previous caloric estimation methods by over 10\% and 30 kCal in terms of MAPE and MAE respectively.

arxiv情報

著者 Jack Ma,Jiangpeng He,Fengqing Zhu
発行日 2023-09-01 14:09:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク