要約
機械学習アルゴリズムの成功は、サンプルの品質とそれに対応するラベルの精度に大きく依存します。
ただし、大規模で高品質のデータセットを構築して維持するのは大変な作業です。
これは、画質、ラベル付け、レポート、アーカイブのばらつきによってエラー、不一致、サンプルの繰り返しが発生する可能性があるため、生物医学データや小規模データから編集されたメタセットに特に当てはまります。
ここでは、均一多様体近似および射影 (UMAP) アルゴリズムが、基本的に、メイン (良好な) データとは異なるが、同じエラー タイプを持つ他のポイントに類似した独立したクラスターを形成することによって、これらの異常を検出できることを示します。
代表的な例として、UMAP を適用して、公開されている ChestX-ray14、CheXpert、および MURA データセット内の外れ値を検出します。
結果はアーカイブおよび遡及的であり、放射線画像に焦点を当てていますが、グラフベースの手法はあらゆる種類のデータに機能し、データセット作成時のキュレーションにも同様に有益であることが証明されています。
要約(オリジナル)
The success of machine learning algorithms heavily relies on the quality of samples and the accuracy of their corresponding labels. However, building and maintaining large, high-quality datasets is an enormous task. This is especially true for biomedical data and for meta-sets that are compiled from smaller ones, as variations in image quality, labeling, reports, and archiving can lead to errors, inconsistencies, and repeated samples. Here, we show that the uniform manifold approximation and projection (UMAP) algorithm can find these anomalies essentially by forming independent clusters that are distinct from the main (good) data but similar to other points with the same error type. As a representative example, we apply UMAP to discover outliers in the publicly available ChestX-ray14, CheXpert, and MURA datasets. While the results are archival and retrospective and focus on radiological images, the graph-based methods work for any data type and will prove equally beneficial for curation at the time of dataset creation.
arxiv情報
著者 | Mohammad Tariqul Islam,Jason W. Fleischer |
発行日 | 2024-08-01 01:59:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google