要約
バイオメディカル画像の分類は、特定の特徴分布に基づくバイオインフォマティクスの捕捉を必要とする。このようなアプリケーションの多くでは、疾患患者のサンプルの入手が困難であることや、データセットの性質が不均衡であることが主な課題である。本論文では、分類と解析のために特定の画像特徴を捕捉することを可能にするビジョントランスフォーマー(ViT)のためのマルチヘッドセルフアテンションの新しい枠組みを提示する。提案手法は、マルチヘッド注意の各ブロックにおいて、最適な注意出力を蓄積するために、残差接続の概念を用いている。提案されたフレームワークは、2つの小規模データセットで評価された:(i)血球分類データセットと(ii)脳MRI画像を用いた脳腫瘍検出。その結果、従来のViTや他のコンボリューションベースの最先端分類モデルよりも大幅に改善されたことが示された。
要約(オリジナル)
Biomedical image classification requires capturing of bio-informatics based on specific feature distribution. In most of such applications, there are mainly challenges due to limited availability of samples for diseased cases and imbalanced nature of dataset. This article presents the novel framework of multi-head self-attention for vision transformer (ViT) which makes capable of capturing the specific image features for classification and analysis. The proposed method uses the concept of residual connection for accumulating the best attention output in each block of multi-head attention. The proposed framework has been evaluated on two small datasets: (i) blood cell classification dataset and (ii) brain tumor detection using brain MRI images. The results show the significant improvement over traditional ViT and other convolution based state-of-the-art classification models.
arxiv情報
著者 | Arun K. Sharma,Nishchal K. Sharma |
発行日 | 2023-06-02 15:06:14+00:00 |
arxivサイト | arxiv_id(pdf) |