LT-ViT: A Vision Transformer for multi-label Chest X-ray classification

要約

ビジョン トランスフォーマー (ViT) は医療画像処理に広く採用されており、既存の取り組みの一部は胸部 X 線 (CXR) の視覚言語トレーニングに向けられています。
しかし、非変圧器ネットワークにとって有益であることが証明されている、複数のスケールからの情報を集約することによって、ViT を使用した CXR の視覚のみのトレーニングを改善する可能性がまだ存在すると私たちは考えています。
そこで、画像トークンとラベルを表すランダムに初期化された補助トークンの間の注意を組み合わせて利用するトランスフォーマーである LT-ViT を開発しました。
私たちの実験では、LT-ViT が (1) 2 つの公的に利用可能な CXR データセット上で純粋な ViT を使用した最先端のパフォーマンスを上回っていること、(2) 他の事前トレーニング手法に一般化可能であるため、モデルの初期化に依存しないこと、および
(3) grad-cam とそのバリアントなしでモデルの解釈が可能になります。

要約(オリジナル)

Vision Transformers (ViTs) are widely adopted in medical imaging tasks, and some existing efforts have been directed towards vision-language training for Chest X-rays (CXRs). However, we envision that there still exists a potential for improvement in vision-only training for CXRs using ViTs, by aggregating information from multiple scales, which has been proven beneficial for non-transformer networks. Hence, we have developed LT-ViT, a transformer that utilizes combined attention between image tokens and randomly initialized auxiliary tokens that represent labels. Our experiments demonstrate that LT-ViT (1) surpasses the state-of-the-art performance using pure ViTs on two publicly available CXR datasets, (2) is generalizable to other pre-training methods and therefore is agnostic to model initialization, and (3) enables model interpretability without grad-cam and its variants.

arxiv情報

著者 Umar Marikkar,Sara Atito,Muhammad Awais,Adam Mahdi
発行日 2023-11-13 12:02:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク