EPVT: Environment-aware Prompt Vision Transformer for Domain Generalization in Skin Lesion Recognition



【要約】深層学習を用いた皮膚レジオン認識は著しい進歩を遂げ、これらのシステムを現実世界のシナリオで展開する必要性が増しています。しかし、最近の研究では、皮膚レジオン認識のための深層ニューラルネットワークが疾患に関係のない画像のアーティファクトに過度に依存する傾向があることが明らかになり、未知の環境での一般化が悪化することがあります。この問題に対処するために、私たちはEPVTと呼ばれる新しいドメイン一般化方法を提案しています。これには、プロンプトをビジョントランスフォーマーに埋め込んで、さまざまなドメインから知識を協力して学習します。具体的には、EPVTは、各々がドメインエキスパートとして機能する一連のドメインプロンプトを利用して、ドメイン固有の知識を捉えることができます。また、データセット全体の一般的な知識のための共有プロンプトがあります。異なるプロンプトの相互作用と知識の共有を促進するために、ドメインプロンプトジェネレータを導入し、ドメインプロンプトと共有プロンプトの間の低ランク積更新を可能にします。さらに、各ドメインで同時に発生するアーティファクトを減らすために、ドメインミックスアップ戦略を採用して、より柔軟な決定マージンを許可し、誤って割り当てられたドメインラベルの問題を緩和します。外部分布の4つのデータセットと6つの異なるバイアスISICデータセットでの実験により、EPVTがさまざまな環境での皮膚レジオン認識において優れた一般化能力を示すことが示されています。また、コードとデータセットは、https://github.com/SiyuanYan1/EPVT で公開されます。


Skin lesion recognition using deep learning has made remarkable progress, and there is an increasing need for deploying these systems in real-world scenarios. However, recent research has revealed that deep neural networks for skin lesion recognition may overly depend on disease-irrelevant image artifacts (i.e. dark corners, dense hairs), leading to poor generalization in unseen environments. To address this issue, we propose a novel domain generalization method called EPVT, which involves embedding prompts into the vision transformer to collaboratively learn knowledge from diverse domains. Concretely, EPVT leverages a set of domain prompts, each of which plays as a domain expert, to capture domain-specific knowledge; and a shared prompt for general knowledge over the entire dataset. To facilitate knowledge sharing and the interaction of different prompts, we introduce a domain prompt generator that enables low-rank multiplicative updates between domain prompts and the shared prompt. A domain mixup strategy is additionally devised to reduce the co-occurring artifacts in each domain, which allows for more flexible decision margins and mitigates the issue of incorrectly assigned domain labels. Experiments on four out-of-distribution datasets and six different biased ISIC datasets demonstrate the superior generalization ability of EPVT in skin lesion recognition across various environments. Our code and dataset will be released at https://github.com/SiyuanYan1/EPVT.


著者 Siyuan Yan,Chi Liu,Zhen Yu,Lie Ju,Dwarikanath Mahapatrainst,Victoria Mar,Monika Janda,Peter Soyer,Zongyuan Ge
発行日 2023-04-09 07:46:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク