要約
自然言語理解と視覚認識における大規模データで事前トレーニングされたマルチモーダル基盤モデルの成功にもかかわらず、医療および臨床分野での対応物は、高度な医療タスクのきめの細かい認識の性質のために、まだ予備的なままです。
ドメイン知識の要求。
ここでは、胸部 X 線画像の自動診断のための、知識が強化された視覚言語の事前トレーニング アプローチを提案します。
Knowledge-enhanced Auto Diagnosis~(KAD) と名付けられたこのアルゴリズムは、最初に既存の医療知識グラフに基づいて知識エンコーダーをトレーニングします。
ペアの胸部 X 線と放射線レポートを使用して、視覚的表現の学習をガイドします。
3 つの外部 X 線データセットに対する KAD の有効性を実験的に検証します。
KAD のゼロ ショット パフォーマンスは、完全に教師ありモデルのパフォーマンスに匹敵するだけでなく、統計的に有意な 3 つの (5 つのうちの) 病状に対する 3 人の放射線専門医の平均よりも優れています。
少数ショットの注釈が利用できる場合、KAD は設定の微調整において既存のすべてのアプローチを凌駕し、さまざまな臨床シナリオでのアプリケーションの可能性を示します。
要約(オリジナル)
Despite of the success of multi-modal foundation models pre-trained on large-scale data in natural language understanding and vision recognition, its counterpart in medical and clinical domains remains preliminary, due to the fine-grained recognition nature of the medical tasks with high demands on domain knowledge. Here, we propose a knowledge-enhanced vision-language pre-training approach for auto-diagnosis on chest X-ray images. The algorithm, named Knowledge-enhanced Auto Diagnosis~(KAD), first trains a knowledge encoder based on an existing medical knowledge graph, i.e., learning neural embeddings of the definitions and relationships between medical concepts and then leverages the pre-trained knowledge encoder to guide the visual representation learning with paired chest X-rays and radiology reports. We experimentally validate KAD’s effectiveness on three external X-ray datasets. The zero-shot performance of KAD is not only comparable to that of the fully-supervised models but also, for the first time, superior to the average of three expert radiologists for three (out of five) pathologies with statistical significance. When the few-shot annotation is available, KAD also surpasses all existing approaches in finetuning settings, demonstrating the potential for application in different clinical scenarios.
arxiv情報
著者 | Xiaoman Zhang,Chaoyi Wu,Ya Zhang,Yanfeng Wang,Weidi Xie |
発行日 | 2023-02-27 18:53:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google