Automatic Labels are as Effective as Manual Labels in Biomedical Images Classification with Deep Learning

要約

生物医学データの可用性の増加は、生物医学サンプルを分析するためのより堅牢な深層学習 (DL) アルゴリズムの設計に役立ちます。
現在、特定のタスクを実行するように DL アルゴリズムをトレーニングする際の主な制限の 1 つは、医療専門家がデータにラベルを付ける必要があることです。
データにラベルを付ける自動方法は存在しますが、自動ラベルにはノイズが多い可能性があり、自動ラベルをいつ DL モデルのトレーニングに採用できるかは完全には明らかではありません。
この論文は、スライド全体画像 (WSI) の分類に関する DL モデルをトレーニングするために、どのような状況で自動ラベルを採用できるかを調査することを目的としています。
この分析には、畳み込みニューラル ネットワーク (CNN) やビジョン トランスフォーマー (ViT) などの複数のアーキテクチャと、セリアック病、肺がん、結腸がんの 3 つのユースケースから収集された 10,000 を超える WSI が含まれており、それぞれバイナリ、マルチクラス、マルチラベルが含まれています。
データ。
この結果により、WSI の分類のための競合モデルのトレーニングにつながるノイズの多いラベルの割合として 10% を特定することができます。
したがって、自動ラベルを生成するアルゴリズムが採用されるには、この基準を満たす必要があります。
Semantic Knowledge Extractor Tool (SKET) アルゴリズムを適用して自動ラベルを生成すると、2 ~ 5% のノイズの多いラベルが生成されるため、手動ラベルで得られるパフォーマンスと同等のパフォーマンスが得られます。
自動ラベルは手動ラベルと同様に効果的であり、手動ラベルを使用して取得したトレーニング モデルと同等の安定したパフォーマンスに達します。

要約(オリジナル)

The increasing availability of biomedical data is helping to design more robust deep learning (DL) algorithms to analyze biomedical samples. Currently, one of the main limitations to train DL algorithms to perform a specific task is the need for medical experts to label data. Automatic methods to label data exist, however automatic labels can be noisy and it is not completely clear when automatic labels can be adopted to train DL models. This paper aims to investigate under which circumstances automatic labels can be adopted to train a DL model on the classification of Whole Slide Images (WSI). The analysis involves multiple architectures, such as Convolutional Neural Networks (CNN) and Vision Transformer (ViT), and over 10000 WSIs, collected from three use cases: celiac disease, lung cancer and colon cancer, which one including respectively binary, multiclass and multilabel data. The results allow identifying 10% as the percentage of noisy labels that lead to train competitive models for the classification of WSIs. Therefore, an algorithm generating automatic labels needs to fit this criterion to be adopted. The application of the Semantic Knowledge Extractor Tool (SKET) algorithm to generate automatic labels leads to performance comparable to the one obtained with manual labels, since it generates a percentage of noisy labels between 2-5%. Automatic labels are as effective as manual ones, reaching solid performance comparable to the one obtained training models with manual labels.

arxiv情報

著者 Niccolò Marini,Stefano Marchesin,Lluis Borras Ferris,Simon Püttmann,Marek Wodzinski,Riccardo Fratti,Damian Podareanu,Alessandro Caputo,Svetla Boytcheva,Simona Vatrano,Filippo Fraggetta,Iris Nagtegaal,Gianmaria Silvello,Manfredo Atzori,Henning Müller
発行日 2024-06-20 14:20:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク