When Medical Imaging Met Self-Attention: A Love Story That Didn’t Quite Work Out

要約

多くの研究は、労働集約的な初期スクリーニングプロセス中に医療専門家を支援するシステムの開発に焦点を当てており、その多くは畳み込み深層学習アーキテクチャに基づいています。
最近、複数の研究で、いわゆる自己注意メカニズムの視覚領域への応用が検討されています。
これらの研究では、さまざまなデータセットやタスクに対する完全な畳み込みアプローチに比べて経験的な改善が報告されることがよくあります。
医療画像のこの傾向を評価するために、私たちは、広く採用されている 2 つの畳み込みアーキテクチャを、2 つの異なる医療データセット上の異なるセルフアテンション バリアントで拡張しました。
これにより、さらなる自己注意の可能性のある利点を具体的に評価することを目的としています。
モデルを同様のサイズの畳み込みベースラインとアテンションベースのベースラインと比較し、統計的にパフォーマンスの向上を評価します。
さらに、そのようなレイヤーを含めることで、トレーニング中にこれらのモデルによって学習された特徴がどのように変化するかを調査します。
ハイパーパラメータ検索の結果、予想に反して、完全な畳み込みモデルと比べてバランスの取れた精度に大きな改善が見られませんでした。
また、皮膚病変画像のダーモスコピー構造などの重要な特徴は、自己注意を利用してもまだ学習されていないこともわかりました。
最後に、ローカルな説明を分析して、偏った機能の使用法を確認します。
私たちは、単に注意を組み込むだけでは、既存の完全畳み込み手法のパフォーマンスを超えるには不十分であると結論付けています。

要約(オリジナル)

A substantial body of research has focused on developing systems that assist medical professionals during labor-intensive early screening processes, many based on convolutional deep-learning architectures. Recently, multiple studies explored the application of so-called self-attention mechanisms in the vision domain. These studies often report empirical improvements over fully convolutional approaches on various datasets and tasks. To evaluate this trend for medical imaging, we extend two widely adopted convolutional architectures with different self-attention variants on two different medical datasets. With this, we aim to specifically evaluate the possible advantages of additional self-attention. We compare our models with similarly sized convolutional and attention-based baselines and evaluate performance gains statistically. Additionally, we investigate how including such layers changes the features learned by these models during the training. Following a hyperparameter search, and contrary to our expectations, we observe no significant improvement in balanced accuracy over fully convolutional models. We also find that important features, such as dermoscopic structures in skin lesion images, are still not learned by employing self-attention. Finally, analyzing local explanations, we confirm biased feature usage. We conclude that merely incorporating attention is insufficient to surpass the performance of existing fully convolutional methods.

arxiv情報

著者 Tristan Piater,Niklas Penzel,Gideon Stein,Joachim Denzler
発行日 2024-04-18 16:18:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク