Convolutional Neural Networks and Vision Transformers for Fashion MNIST Classification: A Literature Review

要約

私たちのレビューでは、画像分類の領域における畳み込みニューラル ネットワーク (CNN) とビジョン トランスフォーマー (ViT) の比較分析を調査し、特に電子商取引分野における衣類の分類に焦点を当てています。
Fashion MNIST データセットを利用して、CNN と ViT の固有の属性を詳しく調べます。
CNN は長い間画像分類の基礎でしたが、ViT は、さまざまな入力データ コンポーネントの微妙な重み付けを可能にする革新的なセルフ アテンション メカニズムを導入しています。
歴史的に、トランスフォーマーは主に自然言語処理 (NLP) タスクに関連付けられてきました。
既存の文献の包括的な調査を通じて、私たちの目的は、画像分類の文脈における ViT と CNN の違いを明らかにすることです。
私たちの分析では、両方のアーキテクチャを採用した最先端の方法論を細心の注意を払って精査し、パフォーマンスに影響を与える要因を特定することに努めています。
これらの要素には、データセットの特性、画像の寸法、ターゲット クラスの数、ハードウェア インフラストラクチャ、および特定のアーキテクチャと、それぞれの上位結果が含まれます。
私たちの主な目標は、特定の条件とニーズを考慮しながら、電子商取引業界内のファッション MNIST データセット内の画像を分類するために、ViT と CNN の間で最も適切なアーキテクチャを決定することです。
全体的なパフォーマンスを向上させるには、これら 2 つのアーキテクチャを異なる形式で組み合わせることの重要性を強調します。
これらのアーキテクチャを統合することで、それぞれの独自の強みを活用でき、電子商取引アプリケーションのより正確で信頼性の高いモデルにつながる可能性があります。
CNN は局所的なパターンを認識するのが得意ですが、ViT は全体的なコンテキストを効果的に把握することができるため、これらの組み合わせは画像分類パフォーマンスを向上させるための有望な戦略となります。

要約(オリジナル)

Our review explores the comparative analysis between Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) in the domain of image classification, with a particular focus on clothing classification within the e-commerce sector. Utilizing the Fashion MNIST dataset, we delve into the unique attributes of CNNs and ViTs. While CNNs have long been the cornerstone of image classification, ViTs introduce an innovative self-attention mechanism enabling nuanced weighting of different input data components. Historically, transformers have primarily been associated with Natural Language Processing (NLP) tasks. Through a comprehensive examination of existing literature, our aim is to unveil the distinctions between ViTs and CNNs in the context of image classification. Our analysis meticulously scrutinizes state-of-the-art methodologies employing both architectures, striving to identify the factors influencing their performance. These factors encompass dataset characteristics, image dimensions, the number of target classes, hardware infrastructure, and the specific architectures along with their respective top results. Our key goal is to determine the most appropriate architecture between ViT and CNN for classifying images in the Fashion MNIST dataset within the e-commerce industry, while taking into account specific conditions and needs. We highlight the importance of combining these two architectures with different forms to enhance overall performance. By uniting these architectures, we can take advantage of their unique strengths, which may lead to more precise and reliable models for e-commerce applications. CNNs are skilled at recognizing local patterns, while ViTs are effective at grasping overall context, making their combination a promising strategy for boosting image classification performance.

arxiv情報

著者 Sonia Bbouzidi,Ghazala Hcini,Imen Jdey,Fadoua Drira
発行日 2024-06-05 17:32:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク