要約
不健康な食生活は、肥満や糖尿病などの複数の慢性疾患の主な原因と考えられています。自動食事摂取量モニタリングシステムは、食事評価を通じて、食事関連疾患を持つ人々の生活の質(QoF)を向上させる可能性を持っている。本研究では、非接触型レーダーを用いた新しい食事摂取量モニタリング手法を提案する。具体的には、周波数変調連続波(FMCW)レーダセンサを採用し、きめ細かい飲食ジェスチャを認識する。細かい飲食ジェスチャーは、手を口元に上げる動作から、手を口から離すまでの一連の動作を含む。3次元時間畳み込みネットワーク(3D-TCN)を開発し、レンジ・ドップラーキューブ(RDキューブ)を処理することで、食事中の飲食ジェスチャーを検出し、セグメント化する。これまでのレーダーを用いた研究とは異なり、本研究では、連続した食事セッションのデータを収集する。48人の参加者による48の食事セッション(3121の食べるジェスチャーと608の飲むジェスチャー)を含む公開データセットを作成し、総時間は783分である。このデータセットには、4つの食事スタイル(フォーク&ナイフ、箸、スプーン、手)が含まれている。提案手法の性能を検証するために、8重クロスバリデーション法を適用した。実験の結果、提案する3D-TCNは、畳み込みニューラルネットワークと長短期記憶ネットワークを組み合わせたモデル(CNN-LSTM)や、CNN-双方向LSTMモデル(CNN-BiLSTM)よりも飲食ジェスチャー検出において優れていることが示された。3D-TCNモデルは、食べるジェスチャーと飲むジェスチャーに対して、それぞれ0.887と0.844のセグメント別F1スコアを達成することができた。提案手法の結果は、食事セッションにおけるきめ細かい飲食ジェスチャ検出とセグメンテーションにレーダーを用いることの実現可能性を示している。
要約(オリジナル)
Unhealthy dietary habits are considered as the primary cause of multiple chronic diseases such as obesity and diabetes. The automatic food intake monitoring system has the potential to improve the quality of life (QoF) of people with dietary related diseases through dietary assessment. In this work, we propose a novel contact-less radar-based food intake monitoring approach. Specifically, a Frequency Modulated Continuous Wave (FMCW) radar sensor is employed to recognize fine-grained eating and drinking gestures. The fine-grained eating/drinking gesture contains a series of movement from raising the hand to the mouth until putting away the hand from the mouth. A 3D temporal convolutional network (3D-TCN) is developed to detect and segment eating and drinking gestures in meal sessions by processing the Range-Doppler Cube (RD Cube). Unlike previous radar-based research, this work collects data in continuous meal sessions. We create a public dataset that contains 48 meal sessions (3121 eating gestures and 608 drinking gestures) from 48 participants with a total duration of 783 minutes. Four eating styles (fork & knife, chopsticks, spoon, hand) are included in this dataset. To validate the performance of the proposed approach, 8-fold cross validation method is applied. Experimental results show that our proposed 3D-TCN outperforms the model that combines a convolutional neural network and a long-short-term-memory network (CNN-LSTM), and also the CNN-Bidirectional LSTM model (CNN-BiLSTM) in eating and drinking gesture detection. The 3D-TCN model achieves a segmental F1-score of 0.887 and 0.844 for eating and drinking gestures, respectively. The results of the proposed approach indicate the feasibility of using radar for fine-grained eating and drinking gesture detection and segmentation in meal sessions.
arxiv情報
著者 | Chunzhuo Wang,T. Sunil Kumar,Walter De Raedt,Guido Camps,Hans Hallez,Bart Vanrumste |
発行日 | 2022-11-08 14:03:44+00:00 |
arxivサイト | arxiv_id(pdf) |