要約
Vision Transformers(VIT)は最近、コンピュータービジョンの分野で新しい研究の波をもたらしました。
これらのモデルは、画像分類とセグメンテーションで特にうまく機能しています。
セマンティックおよびインスタンスのセグメンテーションに関する研究は、新しいアーキテクチャの導入とともに加速しており、その成功の背後にあるVITアーキテクチャまたは注意メカニズムのいずれかに基づいて、ISAIDデータセットの上位20ベンチマークの80%以上が加速しています。
このペーパーでは、ISAIDデータセットでのリモートセンシング航空画像のセマンティックセグメンテーションにVITを使用(または使用しない)3つの重要な要因のヒューリスティックな比較に焦点を当てています。
この研究中に観察された実験結果は、3つの目的に基づいて分析されました。
最初に、エントロピーまたはクラス表現損失を最小限に抑えながら、組合(MIOU)スコアとサイコロのスコアを超える平均交差点を最大化するために、加重融合損失関数の使用を研究しました。
第二に、MIOU、DICEスコア、トレーニング効率、および推論時間に基づいた一般的なUNET畳み込みニューラルネットワーク(CNN)と、VITベースのセマンティックセグメンテーションモデルであるMetaのMaskFormerの転送学習を比較しました。
第三に、現在の最先端のセグメンテーションモデルと比較して、2つのモデル間のトレードオフを調べました。
新しい組み合わせた加重損失関数が、VITを使用した転送学習と比較してCNNモデルのパフォーマンスを大幅に向上させることを示しています。
この実装のコードは、https://github.com/ashimdahal/vit-vs-cnn-image-segmentationにあります。
要約(オリジナル)
Vision Transformers (ViT) have recently brought a new wave of research in the field of computer vision. These models have performed particularly well in image classification and segmentation. Research on semantic and instance segmentation has accelerated with the introduction of the new architecture, with over 80% of the top 20 benchmarks for the iSAID dataset based on either the ViT architecture or the attention mechanism behind its success. This paper focuses on the heuristic comparison of three key factors of using (or not using) ViT for semantic segmentation of remote sensing aerial images on the iSAID dataset. The experimental results observed during this research were analyzed based on three objectives. First, we studied the use of a weighted fused loss function to maximize the mean Intersection over Union (mIoU) score and Dice score while minimizing entropy or class representation loss. Second, we compared transfer learning on Meta’s MaskFormer, a ViT-based semantic segmentation model, against a generic UNet Convolutional Neural Network (CNN) based on mIoU, Dice scores, training efficiency, and inference time. Third, we examined the trade-offs between the two models in comparison to current state-of-the-art segmentation models. We show that the novel combined weighted loss function significantly boosts the CNN model’s performance compared to transfer learning with ViT. The code for this implementation can be found at: https://github.com/ashimdahal/ViT-vs-CNN-Image-Segmentation.
arxiv情報
著者 | Ashim Dahal,Saydul Akbar Murad,Nick Rahimi |
発行日 | 2025-02-13 18:20:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google