Synthetic dual image generation for reduction of labeling efforts in semantic segmentation of micrographs with a customized metric function

要約

材料分析のためのセマンティック・セグメンテーション・モデルのトレーニングには、顕微鏡写真とそれに対応するマスクが必要である。完璧なマスクが描画される可能性は極めて低く、特に物体のエッジ部では、わずかなサンプルしか得られないため、得られるデータ量が少ないこともある。これらの点から、ロバストなモデルを学習することは非常に困難である。我々は、マスクと組み合わせて合成微細構造画像を生成することにより、顕微鏡写真の意味的セグメンテーションモデルを改善するワークフローを実証する。このワークフローでは、数枚の顕微鏡写真とそれぞれのマスクを結合するだけで、埋め込み空間を含むベクトル量子化-変量オートエンコーダーモデルの入力を作成することができる。このモデルは、生成モデル(PixelCNN)が、離散コードに変換された各入力の分布を学習し、新しいコードのサンプリングに使用できるように学習される。後者は最終的にVQ-VAEによってデコードされ、セマンティックセグメンテーションのための対応するマスクとともに画像を生成する。合成データを評価するために、実データと組み合わせて、異なる量の合成データを用いてU-Netモデルを訓練した。次に、これらのモデルを非合成画像のみを用いて評価した。さらに、mean Intersection over Union (mIoU)から派生した、カスタマイズされたメトリックを導入する。提案するメトリックは、少数の誤って予測された画素がmIoUの値を大きく減少させることを防ぐ。我々は、セマンティックセグメンテーションモデルの学習に関して、画像処理とラベリングタスクに必要な労力を軽減するだけでなく、サンプルの準備と取得時間の短縮を達成した。本アプローチは、様々なタイプの画像データに一般化することが可能であり、少数の実画像でモデルを学習するためのユーザーフレンドリーなソリューションとして機能する。

要約(オリジナル)

Training of semantic segmentation models for material analysis requires micrographs and their corresponding masks. It is quite unlikely that perfect masks will be drawn, especially at the edges of objects, and sometimes the amount of data that can be obtained is small, since only a few samples are available. These aspects make it very problematic to train a robust model. We demonstrate a workflow for the improvement of semantic segmentation models of micrographs through the generation of synthetic microstructural images in conjunction with masks. The workflow only requires joining a few micrographs with their respective masks to create the input for a Vector Quantised-Variational AutoEncoder model that includes an embedding space, which is trained such that a generative model (PixelCNN) learns the distribution of each input, transformed into discrete codes, and can be used to sample new codes. The latter will eventually be decoded by VQ-VAE to generate images alongside corresponding masks for semantic segmentation. To evaluate the synthetic data, we have trained U-Net models with different amounts of these synthetic data in conjunction with real data. These models were then evaluated using non-synthetic images only. Additionally, we introduce a customized metric derived from the mean Intersection over Union (mIoU). The proposed metric prevents a few falsely predicted pixels from greatly reducing the value of the mIoU. We have achieved a reduction in sample preparation and acquisition times, as well as the efforts, needed for image processing and labeling tasks, are less when it comes to training semantic segmentation model. The approach could be generalized to various types of image data such that it serves as a user-friendly solution for training models with a small number of real images.

arxiv情報

著者 Matias Oscar Volman Stern,Dominic Hohs,Andreas Jansche,Timo Bernthaler,Gerhard Schneider
発行日 2024-08-01 16:54:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CE, cs.CV, cs.LG パーマリンク