Food Classification using Joint Representation of Visual and Textual Data

要約

食品の分類はヘルスケアにおける重要なタスクです。
この研究では、画像分類には Mish 活性化関数を備えた EfficientNet の修正バージョンを使用し、テキスト分類には従来の BERT トランスフォーマー ベースのネットワークを使用する、マルチモーダル分類フレームワークを提案します。
提案されたネットワークとその他の最先端の手法は、大規模なオープンソース データセットである UPMC Food-101 上で評価されます。
実験結果は、提案されたネットワークが他の方法よりも優れていることを示しており、2 番目に性能の良い方法と比較した場合、画像分類とテキスト分類でそれぞれ 11.57% と 6.34% の精度の有意な差が観察されます。
また、機械学習と深層学習ベースのモデルの両方を使用して、テキスト分類の精度、精度、再現率の観点からパフォーマンスを比較しました。
画像とテキストの両方の予測結果からの比較分析により、提案されたアプローチの効率と堅牢性が実証されました。

要約(オリジナル)

Food classification is an important task in health care. In this work, we propose a multimodal classification framework that uses the modified version of EfficientNet with the Mish activation function for image classification, and the traditional BERT transformer-based network is used for text classification. The proposed network and the other state-of-the-art methods are evaluated on a large open-source dataset, UPMC Food-101. The experimental results show that the proposed network outperforms the other methods, a significant difference of 11.57% and 6.34% in accuracy is observed for image and text classification, respectively, when compared with the second-best performing method. We also compared the performance in terms of accuracy, precision, and recall for text classification using both machine learning and deep learning-based models. The comparative analysis from the prediction results of both images and text demonstrated the efficiency and robustness of the proposed approach.

arxiv情報

著者 Prateek Mittal,Puneet Goyal,Joohi Chauhan
発行日 2023-08-30 11:47:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG パーマリンク