Publicly available datasets of breast histopathology H&E whole-slide images: A systematic review

要約

デジタル病理学とコンピューティングリソースの進歩は、乳がんの診断と治療のための計算病理学の分野に大きなインパクトを与えています。しかし、乳がんの高品質なラベル付き病理組織画像へのアクセスは、正確で堅牢なディープラーニングモデルの開発を制限する大きな課題である。このシステマティックレビューでは、ディープラーニングアルゴリズムの開発に使用できる乳房のH&E染色ホールスライド画像(WSI)の公開データセットを特定しました。我々は、9つの科学文献データベースと9つの研究データリポジトリを系統的に検索した。その結果、乳がんのH&E WSI5153枚を含む、12種類の公開データセットが見つかった。さらに、乳がん計算病理学の特定のタスクに適切なデータセットを選択する研究者を支援するために、各データセットの画像メタデータと特性を報告した。さらに、研究者のための補足資料として、収録論文で使用されたパッチデータおよびプライベートデータセットのリストを作成した。注目すべきは、収録論文の22%が複数のデータセットを利用し、外部検証セットを利用した論文はわずか12%であったことで、他の開発モデルの性能は過大評価されやすい可能性があることが示唆されました。TCGA-BRCAは、選択された研究の47.4%で使用された。このデータセットにはかなりの選択バイアスがあり、訓練されたアルゴリズムの頑健性と一般化可能性に影響を与える可能性がある。また、正確な深層学習モデルを開発する上で問題となり得る乳房WSIデータセットの一貫したメタデータ報告の欠如があり、乳房WSIデータセットの特性およびメタデータを文書化するための明確なガイドラインを確立する必要性を示しています。

要約(オリジナル)

Advancements in digital pathology and computing resources have made a significant impact in the field of computational pathology for breast cancer diagnosis and treatment. However, access to high-quality labeled histopathological images of breast cancer is a big challenge that limits the development of accurate and robust deep learning models. In this systematic review, we identified the publicly available datasets of breast H&E stained whole-slide images (WSI) that can be used to develop deep learning algorithms. We systematically searched nine scientific literature databases and nine research data repositories. We found twelve publicly available datasets, containing 5153 H&E WSIs of breast cancer. Moreover, we reported image metadata and characteristics for each dataset to assist researchers in selecting proper datasets for specific tasks in breast cancer computational pathology. In addition, we compiled a list of patch and private datasets that were used in the included articles as a supplementary resource for researchers. Notably, 22% of the included articles utilized multiple datasets, and only 12% of the articles used an external validation set, suggesting that the performance of other developed models may be susceptible to overestimation. The TCGA-BRCA was used in 47.4% of the selected studies. This dataset has a considerable selection bias that can impact the robustness and generalizability of the trained algorithms. There is also a lack of consistent metadata reporting of breast WSI datasets that can be an issue in developing accurate deep learning models, indicating the necessity of establishing explicit guidelines for documenting breast WSI dataset characteristics and metadata.

arxiv情報

著者 Masoud Tafavvoghi,Lars Ailo Bongo,Nikita Shvetsov,Lill-Tove Rasmussen Busund,Kajsa Møllersen
発行日 2023-06-02 13:50:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T01, cs.CV, cs.LG, eess.IV, I.2.0 パーマリンク