Learned representation-guided diffusion models for large-image generation

要約

忠実度の高いサンプルを合成するには、拡散モデルには通常、生成プロセスをガイドするための補助データが必要です。
ただし、組織病理学や衛星画像などの特殊な領域で必要とされる、骨の折れるパッチレベルのアノテーション作業を調達するのは現実的ではありません。
これは多くの場合、ドメインの専門家によって実行され、数億のパッチが関係します。
現代の自己教師あり学習 (SSL) 表現は、豊富な意味情報と視覚情報をエンコードします。
この論文では、そのような表現は、きめ細かい人間のラベルの代理として機能するのに十分な表現力があると仮定します。
SSL からの埋め込みを条件とした拡散モデルをトレーニングする新しいアプローチを紹介します。
当社の拡散モデルは、これらの特徴を高品質の組織病理学およびリモート センシング画像に投影することに成功しています。
さらに、SSL 埋め込みから推論された空間的に一貫したパッチを組み立てることにより、より大きなイメージを構築し、長距離の依存関係を維持します。
実際の画像のバリエーションを生成することによって実際のデータを拡張すると、パッチ レベルおよびより大きな画像スケールの分類タスクにおける下流の分類器の精度が向上します。
私たちのモデルはトレーニング中に遭遇しなかったデータセットに対しても効果的であり、その堅牢性と一般化可能性を実証しています。
学習されたエンベディングから画像を生成することは、エンベディングのソースに依存しません。
大きな画像の生成に使用される SSL 埋め込みは、参照画像から抽出することも、関連するモダリティ (クラス ラベル、テキスト、ゲノム データなど) に基づいて条件付けされた補助モデルからサンプリングすることもできます。
概念実証として、テキストから大きな画像への合成パラダイムを導入し、テキストの説明から大きな病理画像と衛星画像を合成することに成功しました。

要約(オリジナル)

To synthesize high-fidelity samples, diffusion models typically require auxiliary data to guide the generation process. However, it is impractical to procure the painstaking patch-level annotation effort required in specialized domains like histopathology and satellite imagery; it is often performed by domain experts and involves hundreds of millions of patches. Modern-day self-supervised learning (SSL) representations encode rich semantic and visual information. In this paper, we posit that such representations are expressive enough to act as proxies to fine-grained human labels. We introduce a novel approach that trains diffusion models conditioned on embeddings from SSL. Our diffusion models successfully project these features back to high-quality histopathology and remote sensing images. In addition, we construct larger images by assembling spatially consistent patches inferred from SSL embeddings, preserving long-range dependencies. Augmenting real data by generating variations of real images improves downstream classifier accuracy for patch-level and larger, image-scale classification tasks. Our models are effective even on datasets not encountered during training, demonstrating their robustness and generalizability. Generating images from learned embeddings is agnostic to the source of the embeddings. The SSL embeddings used to generate a large image can either be extracted from a reference image, or sampled from an auxiliary model conditioned on any related modality (e.g. class labels, text, genomic data). As proof of concept, we introduce the text-to-large image synthesis paradigm where we successfully synthesize large pathology and satellite images out of text descriptions.

arxiv情報

著者 Alexandros Graikos,Srikar Yellapragada,Minh-Quan Le,Saarthak Kapse,Prateek Prasanna,Joel Saltz,Dimitris Samaras
発行日 2024-03-28 17:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク