Exploring the Integration of Key-Value Attention Into Pure and Hybrid Transformers for Semantic Segmentation

要約

CNNは長い間画像処理の最先端と見なされていましたが、トランスアーキテクチャの導入はこの立場に挑戦しています。
画像の分類とセグメンテーションで優れた結果を達成しながら、トランスフォーマーは本質的に大規模なトレーニングデータセットに依存しており、計算上の高価のままです。
KVトランスという名前の新たに導入されたトランス誘導体は、合成、NLP、および画像分類タスクで有望な結果を示し、複雑さとメモリの使用を削減します。
これは、医療スクリーニングアプリケーションなど、局所推論が必要なユースケースを特に助長します。
特に医療イメージングの領域で、セマンティックセグメンテーションタスクでのKVトランスのメリットをさらに評価するよう努めました。
同じベースアーキテクチャの従来のバリアントとKVバリエーションを直接比較することにより、モデルの複雑さの減少の実用的なトレードオフに関するさらなる洞察を提供します。
QKV実装と直接比較して、パラメーター数の顕著な減少と蓄積操作の蓄積が積極的に蓄積され、ほとんどのKVバリアントモデルから同様のパフォーマンスを達成することが観察されます。

要約(オリジナル)

While CNNs were long considered state of the art for image processing, the introduction of Transformer architectures has challenged this position. While achieving excellent results in image classification and segmentation, Transformers remain inherently reliant on large training datasets and remain computationally expensive. A newly introduced Transformer derivative named KV Transformer shows promising results in synthetic, NLP, and image classification tasks, while reducing complexity and memory usage. This is especially conducive to use cases where local inference is required, such as medical screening applications. We endeavoured to further evaluate the merit of KV Transformers on semantic segmentation tasks, specifically in the domain of medical imaging. By directly comparing traditional and KV variants of the same base architectures, we provide further insight into the practical tradeoffs of reduced model complexity. We observe a notable reduction in parameter count and multiply accumulate operations, while achieving similar performance from most of the KV variant models when directly compared to their QKV implementation.

arxiv情報

著者 DeShin Hwa,Tobias Holmes,Klaus Drechsler
発行日 2025-03-24 16:38:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク