A new sampling methodology for defining heterogeneous subsets of samples for training image segmentation algorithms

要約

教師あり機械学習アルゴリズムを学習するためのデータセットの作成は、厳しいタスクになることがある。通常、画像アノテーションには1人以上の専門家が必要であり、1つの画像に対してグランドトゥルースラベルを作成するのに数時間かかることがあるため、これは医療画像のセグメンテーションに特に当てはまります。さらに、アノテーションされたサンプルは、画像取得プロセスにおける可能性のある変化だけでなく、画像化された組織に影響を与える可能性のある様々な条件をよく表現していることが最も重要である。これは、データセットの典型的なサンプルだけでなく、非典型的なサンプル、あるいは異常値のサンプルも考慮することによってのみ達成できる。我々は、典型的なサンプルと非典型的なサンプルの両方を均等に考慮する方法で、大規模なデータセットから関連する画像を選択するための新しいサンプリング手法を紹介する。この手法では、サンプルを表す特徴空間から一様なグリッドを生成し、それを用いて関連画像をランダムに抽出する。選択された画像は、元のデータセットを一様にカバーし、その結果、教師付きセグメンテーションアルゴリズムの学習に注釈を付けて使用できる、異種の画像集合を定義する。数千の画像を含むより大きなデータセットから選択された代表的な血管顕微鏡画像を含むデータセットを作成することで、事例を示す。VessMAPと呼ぶこのデータセットは、新しい血管セグメンテーションアルゴリズムの開発に役立てるため、オンラインで公開されている。

要約(オリジナル)

Creating a dataset for training supervised machine learning algorithms can be a demanding task. This is especially true for medical image segmentation since one or more specialists are usually required for image annotation, and creating ground truth labels for just a single image can take up to several hours. In addition, it is paramount that the annotated samples represent well the different conditions that might affect the imaged tissues as well as possible changes in the image acquisition process. This can only be achieved by considering samples that are typical in the dataset as well as atypical, or even outlier, samples. We introduce a new sampling methodology for selecting relevant images from a large dataset in a way that evenly considers both prototypical as well as atypical samples. The methodology involves the generation of a uniform grid from a feature space representing the samples, which is then used for randomly drawing relevant images. The selected images provide a uniform covering of the original dataset, and thus define a heterogeneous set of images that can be annotated and used for training supervised segmentation algorithms. We provide a case example by creating a dataset containing a representative set of blood vessel microscopy images selected from a larger dataset containing thousands of images. The dataset, which we call VessMAP, is being made available online to aid the development of new blood vessel segmentation algorithms.

arxiv情報

著者 Matheus Viana da Silva,Natália de Carvalho Santos,Julie Ouellette,Baptiste Lacoste,Cesar Henrique Comin
発行日 2023-12-04 18:39:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク