要約
医療専門家が病変の一連の視覚パターンに基づいて決定を下すため、コンセプトベースのモデルは、本質的に解釈可能な皮膚病変診断の開発に自然に役立ちます。
それにもかかわらず、これらのモデルの開発は、概念注釈付きデータセットの存在に依存していますが、注釈付けプロセスには専門的な知識と専門知識が必要なため、その利用可能性はほとんどありません。
この研究では、視覚言語モデルを使用して、概念に注釈が付けられた多数のサンプルへの依存を軽減できることを示します。
特に、概念ベースの記述をテキスト埋め込みとして使用して、CLIP を皮膚病変分類の下流タスクに適応させるための埋め込み学習戦略を提案します。
私たちの実験では、概念をテキストの埋め込みとして使用すると、視覚言語モデルがより高い精度を達成するだけでなく、概念の自動生成のために特別に考案されたアプローチと同等のパフォーマンスを達成するために必要な概念注釈付きサンプルの数が少なくなることが明らかになりました。
要約(オリジナル)
Concept-based models naturally lend themselves to the development of inherently interpretable skin lesion diagnosis, as medical experts make decisions based on a set of visual patterns of the lesion. Nevertheless, the development of these models depends on the existence of concept-annotated datasets, whose availability is scarce due to the specialized knowledge and expertise required in the annotation process. In this work, we show that vision-language models can be used to alleviate the dependence on a large number of concept-annotated samples. In particular, we propose an embedding learning strategy to adapt CLIP to the downstream task of skin lesion classification using concept-based descriptions as textual embeddings. Our experiments reveal that vision-language models not only attain better accuracy when using concepts as textual embeddings, but also require a smaller number of concept-annotated samples to attain comparable performance to approaches specifically devised for automatic concept generation.
arxiv情報
著者 | Cristiano Patrício,Luís F. Teixeira,João C. Neves |
発行日 | 2024-03-06 14:23:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google