SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers

要約

画像分類は、モデルが画像を分析して特定のラベルに分類するコンピューター ビジョン タスクです。
ビジョン トランスフォーマー (ViT) は、自己注意を活用して複雑なパターンと画像パッチ間の長距離関係をキャプチャすることで、このタスクを改善します。
ただし、ViT にとっての重要な課題は、階層構造を通じて CNN に固有のマルチスケール特徴表現を効率的に組み込むことです。
このペーパーでは、マルチスケール機能を統合することでこの課題に対処する新しいフレームワークである、Scale-Aware Graph Attendant Vision Transformer (SAG-ViT) を紹介します。
このモデルは、EfficientNet をバックボーンとして使用して、マルチスケールの特徴マップを抽出します。このマップは、セマンティック情報を保存するためにパッチに分割されます。
これらのパッチは、空間的および機能の類似性に基づいてグラフに編成され、グラフ アテンション ネットワーク (GAT) によってノードの埋め込みが調整されます。
最後に、Transformer エンコーダーは、長距離の依存関係と複雑な相互作用をキャプチャします。
SAG-ViT はベンチマーク データセットで評価され、画像分類パフォーマンスの向上におけるその有効性が実証されています。

要約(オリジナル)

Image classification is a computer vision task where a model analyzes an image to categorize it into a specific label. Vision Transformers (ViT) improve this task by leveraging self-attention to capture complex patterns and long range relationships between image patches. However, a key challenge for ViTs is efficiently incorporating multiscale feature representations, which is inherent in CNNs through their hierarchical structure. In this paper, we introduce the Scale-Aware Graph Attention Vision Transformer (SAG-ViT), a novel framework that addresses this challenge by integrating multi-scale features. Using EfficientNet as a backbone, the model extracts multi-scale feature maps, which are divided into patches to preserve semantic information. These patches are organized into a graph based on spatial and feature similarities, with a Graph Attention Network (GAT) refining the node embeddings. Finally, a Transformer encoder captures long-range dependencies and complex interactions. The SAG-ViT is evaluated on benchmark datasets, demonstrating its effectiveness in enhancing image classification performance.

arxiv情報

著者 Shravan Venkatraman,Jaskaran Singh Walia,Joe Dhanith P R
発行日 2024-11-14 13:15:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV, cs.LG, I.2.10 パーマリンク