Copycats: the many lives of a publicly available medical imaging dataset

要約

医療画像 (MI) データセットは、医療における人工知能の基礎です。
診断アルゴリズムの精度、堅牢性、公平性は、モデルのトレーニングと評価に使用されるデータ (およびその品質) に依存します。
MI データセットはかつては独自のものでしたが、Kaggle や HuggingFace などのコミュニティ提供プラットフォーム (CCP) を含め、一般公開されることが増えてきました。
オープンデータはデータの公的価値の再分配を強化するために重要ですが、現在の CCP ガバナンス モデルは、データセットの共有、文書化、評価に必要な品質と推奨される実践を維持できていないことがわかりました。
このペーパーでは、CCP に関して公開されている機械学習データセットの分析を実施し、データセットのコンテキストについて議論し、現在の CCP 環境における限界とギャップを特定します。
MI データセットとコンピューター ビジョン データセットの違い、特に、推奨されるデータセット管理手法の不適切な導入による潜在的に有害な下流への影響について強調します。
データ共有、データ文書化、メンテナンスなど、いくつかの側面にわたって分析されたデータセットを比較します。
プラットフォーム間の違いにより、あいまいなライセンス、永続的な識別子とストレージの欠如、重複、メタデータの欠落が見つかりました。
私たちの研究は、医療向けの責任あるデータキュレーションと AI アルゴリズムの取り組みに貢献します。

要約(オリジナル)

Medical Imaging (MI) datasets are fundamental to artificial intelligence in healthcare. The accuracy, robustness, and fairness of diagnostic algorithms depend on the data (and its quality) used to train and evaluate the models. MI datasets used to be proprietary, but have become increasingly available to the public, including on community-contributed platforms (CCPs) like Kaggle or HuggingFace. While open data is important to enhance the redistribution of data’s public value, we find that the current CCP governance model fails to uphold the quality needed and recommended practices for sharing, documenting, and evaluating datasets. In this paper, we conduct an analysis of publicly available machine learning datasets on CCPs, discussing datasets’ context, and identifying limitations and gaps in the current CCP landscape. We highlight differences between MI and computer vision datasets, particularly in the potentially harmful downstream effects from poor adoption of recommended dataset management practices. We compare the analyzed datasets across several dimensions, including data sharing, data documentation, and maintenance. We find vague licenses, lack of persistent identifiers and storage, duplicates, and missing metadata, with differences between the platforms. Our research contributes to efforts in responsible data curation and AI algorithms for healthcare.

arxiv情報

著者 Amelia Jiménez-Sánchez,Natalia-Rozalia Avlona,Dovile Juodelyte,Théo Sourget,Caroline Vang-Larsen,Anna Rogers,Hubert Dariusz Zając,Veronika Cheplygina
発行日 2024-06-10 15:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク