Towards actionability for open medical imaging datasets: lessons from community-contributed platforms for data management and stewardship

要約

医療画像データセットは、医療における人工知能 (AI) の基礎です。
診断アルゴリズムの精度、堅牢性、公平性は、モデルがトレーニングおよび評価されるデータ (およびその品質) に依存します。
医療画像データセットは一般公開されることが多くなり、Kaggle や HuggingFace などの民間企業を含むコミュニティ提供プラットフォーム (CCP) でホストされることが多くなっています。
オープンデータはデータの公的価値の再分配を強化するために重要ですが、現在の CCP ガバナンス モデルは、データセットの共有、文書化、評価に必要な品質と推奨される実践を維持できていないことがわかりました。
この論文では、CCP 上の医療画像データセットと、それらがどのように文書化、共有、維持されるかを調査します。
まず、医療画像処理とコンピュータ ビジョンのいくつかの違い、特に、推奨されるデータセット管理手法の不適切な採用による潜在的に有害な下流への影響に焦点を当てます。
次に、CCP 上の 20 個 (医療用 10 個とコンピューター ビジョン 10 個) の人気のあるデータセットを分析し、プラットフォーム間の違いによるあいまいなライセンス、永続的な識別子とストレージの欠如、メタデータの重複と欠落を発見しました。
私たちは、CCP 上のデータの特性と医療における AI に求められるデータの特性との間のデータ品質のギャップを明らかにするための概念的な指標として「実用性」を提示します。
最後に、CCP 上のデータセットを文書化し、共有し、維持するためのコモンズベースの管理モデルを提案し、限界と未解決の疑問についての議論で終わります。

要約(オリジナル)

Medical imaging datasets are fundamental to artificial intelligence (AI) in healthcare. The accuracy, robustness and fairness of diagnostic algorithms depend on the data (and its quality) on which the models are trained and evaluated. Medical imaging datasets have become increasingly available to the public, and are often hosted on Community-Contributed Platforms (CCP), including private companies like Kaggle or HuggingFace. While open data is important to enhance the redistribution of data’s public value, we find that the current CCP governance model fails to uphold the quality needed and recommended practices for sharing, documenting, and evaluating datasets. In this paper we investigate medical imaging datasets on CCPs and how they are documented, shared, and maintained. We first highlight some differences between medical imaging and computer vision, particularly in the potentially harmful downstream effects due to poor adoption of recommended dataset management practices. We then analyze 20 (10 medical and 10 computer vision) popular datasets on CCPs and find vague licenses, lack of persistent identifiers and storage, duplicates and missing metadata, with differences between the platforms. We present ‘actionability’ as a conceptual metric to reveal the data quality gap between characteristics of data on CCPs and the desired characteristics of data for AI in healthcare. Finally, we propose a commons-based stewardship model for documenting, sharing and maintaining datasets on CCPs and end with a discussion of limitations and open questions.

arxiv情報

著者 Amelia Jiménez-Sánchez,Natalia-Rozalia Avlona,Dovile Juodelyte,Théo Sourget,Caroline Vang-Larsen,Hubert Dariusz Zając,Veronika Cheplygina
発行日 2024-02-09 12:01:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク