要約
食品の分類はヘルスケアにおける重要なタスクです。
この研究では、画像分類には Mish 活性化関数を備えた EfficientNet の修正バージョンを使用し、テキスト分類には従来の BERT トランスフォーマー ベースのネットワークを使用する、マルチモーダル分類フレームワークを提案します。
提案されたネットワークとその他の最先端の手法は、大規模なオープンソース データセットである UPMC Food-101 上で評価されます。
実験結果は、提案されたネットワークが他の方法よりも優れていることを示しており、2 番目に性能の良い方法と比較した場合、画像分類とテキスト分類でそれぞれ 11.57% と 6.34% の精度の有意な差が観察されます。
また、機械学習と深層学習ベースのモデルの両方を使用して、テキスト分類の精度、精度、再現率の観点からパフォーマンスを比較しました。
画像とテキストの両方の予測結果からの比較分析により、提案されたアプローチの効率と堅牢性が実証されました。
要約(オリジナル)
Food classification is an important task in health care. In this work, we propose a multimodal classification framework that uses the modified version of EfficientNet with the Mish activation function for image classification, and the traditional BERT transformer-based network is used for text classification. The proposed network and the other state-of-the-art methods are evaluated on a large open-source dataset, UPMC Food-101. The experimental results show that the proposed network outperforms the other methods, a significant difference of 11.57% and 6.34% in accuracy is observed for image and text classification, respectively, when compared with the second-best performing method. We also compared the performance in terms of accuracy, precision, and recall for text classification using both machine learning and deep learning-based models. The comparative analysis from the prediction results of both images and text demonstrated the efficiency and robustness of the proposed approach.
arxiv情報
著者 | Prateek Mittal,Puneet Goyal,Joohi Chauhan |
発行日 | 2023-08-30 11:47:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google