BenchMD: A Benchmark for Unified Learning on Medical Images and Sensors

要約

医療データは、AI アルゴリズムにとって困難な課題をもたらします。医療データはさまざまなモダリティで存在し、頻繁に分布が変化し、例やラベルの不足に悩まされています。
トランスフォーマーや自己教師あり学習などの最近の進歩により、これらの多様な条件に柔軟に適用できる、より普遍的なアプローチが約束されています。
この方向の進歩を測定し推進するために、我々は BenchMD を提示します。これは、アーキテクチャやトレーニング技術 (自己教師あり学習、ImageNet 事前トレーニングなど) を含む、統合されたモダリティに依存しない手法が、臨床的にさまざまな種類の臨床試験でどの程度うまく機能するかをテストするベンチマークです。
関連する医療業務。
BenchMD は、1D センサー データ、2D 画像、3D ボリューム スキャンを含む、7 つの医療モダリティ用に公開されている 19 のデータセットを組み合わせています。
私たちのベンチマークは、事前トレーニングの使用を奨励する挑戦的な少数ショット設定など、さまざまなデータセット サイズにわたる手法を評価することにより、現実世界のデータ制約を反映しています。
最後に、トレーニング データとは異なる病院で収集された分布外データのパフォーマンスを評価します。これは、医療 AI モデルのパフォーマンスを頻繁に低下させる、自然に発生する分布の変化を表します。
私たちのベースライン結果は、すべてのモダリティにわたって優れたパフォーマンスを達成する統合学習手法は存在せず、ベンチマークには改善の余地が十分にあることを示しています。
コードは https://github.com/rajpurkarlab/BenchMD で公開されています。

要約(オリジナル)

Medical data poses a daunting challenge for AI algorithms: it exists in many different modalities, experiences frequent distribution shifts, and suffers from a scarcity of examples and labels. Recent advances, including transformers and self-supervised learning, promise a more universal approach that can be applied flexibly across these diverse conditions. To measure and drive progress in this direction, we present BenchMD: a benchmark that tests how well unified, modality-agnostic methods, including architectures and training techniques (e.g. self-supervised learning, ImageNet pretraining),perform on a diverse array of clinically-relevant medical tasks. BenchMD combines 19 publicly available datasets for 7 medical modalities, including 1D sensor data, 2D images, and 3D volumetric scans. Our benchmark reflects real-world data constraints by evaluating methods across a range of dataset sizes, including challenging few-shot settings that incentivize the use of pretraining. Finally, we evaluate performance on out-of-distribution data collected at different hospitals than the training data, representing naturally-occurring distribution shifts that frequently degrade the performance of medical AI models. Our baseline results demonstrate that no unified learning technique achieves strong performance across all modalities, leaving ample room for improvement on the benchmark. Code is released at https://github.com/rajpurkarlab/BenchMD.

arxiv情報

著者 Kathryn Wantlin,Chenwei Wu,Shih-Cheng Huang,Oishi Banerjee,Farah Dadabhoy,Veeral Vipin Mehta,Ryan Wonhee Han,Fang Cao,Raja R. Narayan,Errol Colak,Adewole Adamson,Laura Heacock,Geoffrey H. Tison,Alex Tamkin,Pranav Rajpurkar
発行日 2023-06-26 15:47:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク