CB-HVTNet: A channel-boosted hybrid vision transformer network for lymphocyte assessment in histopathological images

要約

トランスフォーマーは、長距離の依存関係を学習できるため、グローバル パースペクティブ学習における畳み込みニューラル ネットワーク (CNN) の欠点を克服しました。
したがって、医療診断を含むいくつかの視覚関連のタスクで研究者の注目を集めています。
ただし、同社のマルチヘッド アテンション モジュールはグローバル レベルの特徴表現のみをキャプチャするため、医療画像には不十分です。
この問題に対処するために、転移学習を使用してブーストされたチャネルを生成し、トランスフォーマーと CNN の両方を使用して組織病理学的画像内のリンパ球を分析するチャネル ブースト ハイブリッド ビジョン トランスフォーマー (CB HVT) を提案します。
提案された CB HVT は、チャネル生成モジュール、チャネル活用モジュール、チャネル結合モジュール、領域認識モジュール、検出およびセグメンテーション ヘッドを含む 5 つのモジュールで構成されており、これらが連携してリンパ球を効果的に識別します。
チャネル生成モジュールは、転移学習によるチャネル ブースティングのアイデアを使用して、さまざまな補助学習器から多様なチャネルを抽出します。
CB HVT では、これらのブーストされたチャネルは、まずチャネル活用モジュールのアテンション メカニズムを使用して連結され、ランク付けされます。
次に、チャネル結合モジュールで融合ブロックが利用され、さまざまなブーストされたチャネルが段階的かつ体系的に結合され、ネットワークの学習表現が改善されます。
CB HVT はまた、領域認識モジュールとヘッドで提案ネットワークを採用し、重複する領域やアーティファクトがある場合でもオブジェクトを効果的に識別します。
我々は、組織病理学的画像におけるリンパ球評価のための 2 つの公的に利用可能なデータセットに基づいて、提案された CB HVT を評価しました。
結果は、CB HVT が他の最先端の検出モデルよりも優れたパフォーマンスを示し、良好な一般化能力を備えていることを示し、病理学者にとってのツールとしての価値を示しています。

要約(オリジナル)

Transformers, due to their ability to learn long range dependencies, have overcome the shortcomings of convolutional neural networks (CNNs) for global perspective learning. Therefore, they have gained the focus of researchers for several vision related tasks including medical diagnosis. However, their multi-head attention module only captures global level feature representations, which is insufficient for medical images. To address this issue, we propose a Channel Boosted Hybrid Vision Transformer (CB HVT) that uses transfer learning to generate boosted channels and employs both transformers and CNNs to analyse lymphocytes in histopathological images. The proposed CB HVT comprises five modules, including a channel generation module, channel exploitation module, channel merging module, region-aware module, and a detection and segmentation head, which work together to effectively identify lymphocytes. The channel generation module uses the idea of channel boosting through transfer learning to extract diverse channels from different auxiliary learners. In the CB HVT, these boosted channels are first concatenated and ranked using an attention mechanism in the channel exploitation module. A fusion block is then utilized in the channel merging module for a gradual and systematic merging of the diverse boosted channels to improve the network’s learning representations. The CB HVT also employs a proposal network in its region aware module and a head to effectively identify objects, even in overlapping regions and with artifacts. We evaluated the proposed CB HVT on two publicly available datasets for lymphocyte assessment in histopathological images. The results show that CB HVT outperformed other state of the art detection models, and has good generalization ability, demonstrating its value as a tool for pathologists.

arxiv情報

著者 Momina Liaqat Ali,Zunaira Rauf,Asifullah Khan,Anabia Sohail,Rafi Ullah,Jeonghwan Gwak
発行日 2023-07-19 10:52:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク