A Novel Vision Transformer with Residual in Self-attention for Biomedical Image Classification

要約

バイオメディカル画像の分類は、特定の特徴分布に基づくバイオインフォマティクスの捕捉を必要とする。このようなアプリケーションの多くでは、疾患患者のサンプルの入手が困難であることや、データセットの性質が不均衡であることが主な課題である。本論文では、分類と解析のために特定の画像特徴を捕捉することを可能にするビジョントランスフォーマー(ViT)のためのマルチヘッドセルフアテンションの新しい枠組みを提示する。提案手法は、マルチヘッド注意の各ブロックにおいて、最適な注意出力を蓄積するために、残差接続の概念を用いている。提案されたフレームワークは、2つの小規模データセットで評価された:(i)血球分類データセットと(ii)脳MRI画像を用いた脳腫瘍検出。その結果、従来のViTや他のコンボリューションベースの最先端分類モデルよりも大幅に改善されたことが示された。

要約(オリジナル)

Biomedical image classification requires capturing of bio-informatics based on specific feature distribution. In most of such applications, there are mainly challenges due to limited availability of samples for diseased cases and imbalanced nature of dataset. This article presents the novel framework of multi-head self-attention for vision transformer (ViT) which makes capable of capturing the specific image features for classification and analysis. The proposed method uses the concept of residual connection for accumulating the best attention output in each block of multi-head attention. The proposed framework has been evaluated on two small datasets: (i) blood cell classification dataset and (ii) brain tumor detection using brain MRI images. The results show the significant improvement over traditional ViT and other convolution based state-of-the-art classification models.

arxiv情報

著者 Arun K. Sharma,Nishchal K. Sharma
発行日 2023-06-02 15:06:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク