A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships

要約

トランスフォーマー ベースのモデルは、自然言語処理 (NLP) の状況を一変させ、コンピューター ビジョン タスクにますます適用され、目覚ましい成功を収めています。
これらのモデルは、長距離の依存関係やコンテキスト情報をキャプチャできることで知られており、コンピューター ビジョンにおける従来の畳み込みニューラル ネットワーク (CNN) に代わる有望な代替手段を提供します。
このレビュー ペーパーでは、コンピューター ビジョン タスクに適応したさまざまなトランスフォーマー アーキテクチャの広範な概要を提供します。
これらのモデルが画像内のグローバルなコンテキストと空間的関係をどのように捉え、画像分類、物体検出、セグメンテーションなどのタスクで優れた能力を発揮できるようになるかを詳しく掘り下げます。
トランスベースのモデルの主要コンポーネント、トレーニング方法、パフォーマンス指標を分析し、その長所、限界、最近の進歩に焦点を当てます。
さらに、コンピューター ビジョンにおける変圧器ベースのモデルの潜在的な研究の方向性と応用について説明し、この分野の将来の進歩への影響についての洞察を提供します。

要約(オリジナル)

Transformer-based models have transformed the landscape of natural language processing (NLP) and are increasingly applied to computer vision tasks with remarkable success. These models, renowned for their ability to capture long-range dependencies and contextual information, offer a promising alternative to traditional convolutional neural networks (CNNs) in computer vision. In this review paper, we provide an extensive overview of various transformer architectures adapted for computer vision tasks. We delve into how these models capture global context and spatial relationships in images, empowering them to excel in tasks such as image classification, object detection, and segmentation. Analyzing the key components, training methodologies, and performance metrics of transformer-based models, we highlight their strengths, limitations, and recent advancements. Additionally, we discuss potential research directions and applications of transformer-based models in computer vision, offering insights into their implications for future advancements in the field.

arxiv情報

著者 Gracile Astlin Pereira,Muhammad Hussain
発行日 2024-08-27 16:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク