Between Generating Noise and Generating Images: Noise in the Correct Frequency Improves the Quality of Synthetic Histopathology Images for Digital Pathology

要約

人工知能と機械学習技術は、デジタル病理学の分野に革命を起こす見込みがあります。
ただし、これらのモデルはかなりの量のデータを必要とし、偏りのないトレーニング データの可用性は限られています。
合成画像は、AI アルゴリズムを改善および検証するために、既存のデータセットを補強できます。
しかし、その中の細胞機能の正確な分布を制御することは依然として困難です。
解決策の 1 つは、ランダム ノイズではなくセマンティック マスクを入力として受け取る条件付きの敵対的生成ネットワークを利用することです。
他のドメインとは異なり、組織の正確な細胞構造を概説することは難しく、入力マスクのほとんどは細胞タイプの領域を表しています。
ただし、ポリゴン ベースのマスクを使用すると、合成画像内に固有のアーティファクトが導入されます。これは、ポリゴン サイズと単一セル サイズの不一致によるものです。
この作業では、適切な空間周波数を持つランダムな単一ピクセル ノイズをポリゴン セマンティック マスクに導入すると、合成画像の品質が劇的に向上することを示します。
プラットフォームを使用して、免疫組織化学処理された肺生検の合成画像を生成しました。
3 つの検証手順を使用して、画像の品質をテストします。
まず、適切なノイズ周波数を追加すると、実際の単一セル機能を追加することによって得られる類似性メトリックの改善の 87% が得られることを示します。
次に、合成画像がチューリング テストに合格することを示します。
最後に、これらの合成画像をトレーニング セットに追加すると、PD-L1 セマンティック セグメンテーションのパフォーマンスに関して AI のパフォーマンスが向上することを示します。
私たちの研究は、オンデマンドで合成データを生成して限られたデータセットの偏りをなくし、アルゴリズムの精度を向上させ、その堅牢性を検証するためのシンプルで強力なアプローチを提案しています。

要約(オリジナル)

Artificial intelligence and machine learning techniques have the promise to revolutionize the field of digital pathology. However, these models demand considerable amounts of data, while the availability of unbiased training data is limited. Synthetic images can augment existing datasets, to improve and validate AI algorithms. Yet, controlling the exact distribution of cellular features within them is still challenging. One of the solutions is harnessing conditional generative adversarial networks that take a semantic mask as an input rather than a random noise. Unlike other domains, outlining the exact cellular structure of tissues is hard, and most of the input masks depict regions of cell types. However, using polygon-based masks introduce inherent artifacts within the synthetic images – due to the mismatch between the polygon size and the single-cell size. In this work, we show that introducing random single-pixel noise with the appropriate spatial frequency into a polygon semantic mask can dramatically improve the quality of the synthetic images. We used our platform to generate synthetic images of immunohistochemistry-treated lung biopsies. We test the quality of the images using a three-fold validation procedure. First, we show that adding the appropriate noise frequency yields 87% of the similarity metrics improvement that is obtained by adding the actual single-cell features. Second, we show that the synthetic images pass the Turing test. Finally, we show that adding these synthetic images to the train set improves AI performance in terms of PD-L1 semantic segmentation performances. Our work suggests a simple and powerful approach for generating synthetic data on demand to unbias limited datasets to improve the algorithms’ accuracy and validate their robustness.

arxiv情報

著者 Nati Daniel,Eliel Aknin,Ariel Larey,Yoni Peretz,Guy Sela,Yael Fisher,Yonatan Savir
発行日 2023-02-13 17:49:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク