要約
データセットは医療画像研究で重要な役割を果たしていますが、ラベルの品質、ショートカット、メタデータなどの問題はしばしば見落とされています。
この注意の欠如は、アルゴリズムの一般化可能性に害を及ぼし、その結果、患者の転帰に悪影響を与える可能性があります。
既存の医療画像文献レビューは、主に機械学習(ML)方法に焦点を当てていますが、特定のアプリケーションのデータセットに焦点を当てているのは少数しかありませんが、これらのレビューは静的なままです。
これは、データセットが公開された後に他の研究者が貢献する可能性のあるバイアス、ショートカット、追加の注釈などの新たな証拠を説明できません。
これらの新しく発見されたデータセットの調査結果を研究アーティファクトと呼びます。
このギャップに対処するために、複数の医療イメージングアプリケーションにわたってパブリックデータセットと関連する研究アーティファクトを継続的に追跡するリビングレビューを提案します。
私たちのアプローチには、データドキュメントアーティファクトを監視するためのLiving Reviewのフレームワークと、研究アーティファクトとデータセットの間の引用関係を視覚化するSQLデータベースが含まれています。
最後に、医療画像データセットを作成するための重要な考慮事項について説明し、データアノテーションのベストプラクティスをレビューし、ショートカットと人口統計の多様性の重要性について議論し、ライフサイクル全体でデータセットを管理することの重要性を強調します。
デモはhttp://inthepicture.itu.dk/で公開されています。
要約(オリジナル)
Datasets play a critical role in medical imaging research, yet issues such as label quality, shortcuts, and metadata are often overlooked. This lack of attention may harm the generalizability of algorithms and, consequently, negatively impact patient outcomes. While existing medical imaging literature reviews mostly focus on machine learning (ML) methods, with only a few focusing on datasets for specific applications, these reviews remain static — they are published once and not updated thereafter. This fails to account for emerging evidence, such as biases, shortcuts, and additional annotations that other researchers may contribute after the dataset is published. We refer to these newly discovered findings of datasets as research artifacts. To address this gap, we propose a living review that continuously tracks public datasets and their associated research artifacts across multiple medical imaging applications. Our approach includes a framework for the living review to monitor data documentation artifacts, and an SQL database to visualize the citation relationships between research artifact and dataset. Lastly, we discuss key considerations for creating medical imaging datasets, review best practices for data annotation, discuss the significance of shortcuts and demographic diversity, and emphasize the importance of managing datasets throughout their entire lifecycle. Our demo is publicly available at http://inthepicture.itu.dk/.
arxiv情報
著者 | Amelia Jiménez-Sánchez,Natalia-Rozalia Avlona,Sarah de Boer,Víctor M. Campello,Aasa Feragen,Enzo Ferrante,Melanie Ganz,Judy Wawira Gichoya,Camila González,Steff Groefsema,Alessa Hering,Adam Hulman,Leo Joskowicz,Dovile Juodelyte,Melih Kandemir,Thijs Kooi,Jorge del Pozo Lérida,Livie Yumeng Li,Andre Pacheco,Tim Rädsch,Mauricio Reyes,Théo Sourget,Bram van Ginneken,David Wen,Nina Weng,Jack Junchi Xu,Hubert Dariusz Zając,Maria A. Zuluaga,Veronika Cheplygina |
発行日 | 2025-06-02 12:18:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google