要約
食品画像のセグメンテーションは、一皿の食品の栄養価の推定など、遍在的な用途を持つ重要なタスクです。
この分野のセグメンテーションには機械学習モデルが使用されてきましたが、食品画像にはいくつかの課題があります。
課題の 1 つは、食品が重なったり混ざり合ったりして、区別が難しくなる可能性があることです。
もう 1 つの課題は、クラス間の類似性とクラス内のばらつきの程度です。これは、食品を提供する調理方法や料理の違いによって引き起こされます。さらに、クラスの不均衡は、食品データセットでは避けられない問題です。
これらの問題に対処するために、2 つのモデルがトレーニングおよび比較されます。1 つは畳み込みニューラル ネットワークに基づいており、もう 1 つは画像変換用の双方向エンコーダー表現 (BEiT) に基づいています。
モデルは、食品画像セグメンテーションの堅牢なベンチマークとして認識されている FoodSeg103 データセットを使用してトレーニングおよび評価されます。
BEiT モデルは、FoodSeg103 で 49.4 の和集合に対する平均交差を達成することで、以前の最先端のモデルを上回っています。
この研究は、食品画像領域における畳み込みとトランスフォーマーベースのアプローチを使用した知識の伝達に関する洞察を提供します。
要約(オリジナル)
Food image segmentation is an important task that has ubiquitous applications, such as estimating the nutritional value of a plate of food. Although machine learning models have been used for segmentation in this domain, food images pose several challenges. One challenge is that food items can overlap and mix, making them difficult to distinguish. Another challenge is the degree of inter-class similarity and intra-class variability, which is caused by the varying preparation methods and dishes a food item may be served in. Additionally, class imbalance is an inevitable issue in food datasets. To address these issues, two models are trained and compared, one based on convolutional neural networks and the other on Bidirectional Encoder representation for Image Transformers (BEiT). The models are trained and valuated using the FoodSeg103 dataset, which is identified as a robust benchmark for food image segmentation. The BEiT model outperforms the previous state-of-the-art model by achieving a mean intersection over union of 49.4 on FoodSeg103. This study provides insights into transfering knowledge using convolution and Transformer-based approaches in the food image domain.
arxiv情報
著者 | Grant Sinha,Krish Parmar,Hilda Azimi,Amy Tai,Yuhao Chen,Alexander Wong,Pengcheng Xi |
発行日 | 2023-06-15 15:38:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google