Learned representation-guided diffusion models for large-image generation


現代の自己教師あり学習 (SSL) 表現は、豊富な意味情報と視覚情報をエンコードします。
SSL からの埋め込みを条件とした拡散モデルをトレーニングする新しいアプローチを紹介します。
当社の拡散モデルは、これらの特徴を高品質の組織病理学およびリモート センシング画像に投影することに成功しています。
さらに、SSL 埋め込みから推論された空間的に一貫したパッチを組み立てることにより、より大きなイメージを構築し、長距離の依存関係を維持します。
実際の画像のバリエーションを生成することによって実際のデータを拡張すると、パッチ レベルおよびより大きな画像スケールの分類タスクにおける下流の分類器の精度が向上します。
大きな画像の生成に使用される SSL 埋め込みは、参照画像から抽出することも、関連するモダリティ (クラス ラベル、テキスト、ゲノム データなど) に基づいて条件付けされた補助モデルからサンプリングすることもできます。


To synthesize high-fidelity samples, diffusion models typically require auxiliary data to guide the generation process. However, it is impractical to procure the painstaking patch-level annotation effort required in specialized domains like histopathology and satellite imagery; it is often performed by domain experts and involves hundreds of millions of patches. Modern-day self-supervised learning (SSL) representations encode rich semantic and visual information. In this paper, we posit that such representations are expressive enough to act as proxies to fine-grained human labels. We introduce a novel approach that trains diffusion models conditioned on embeddings from SSL. Our diffusion models successfully project these features back to high-quality histopathology and remote sensing images. In addition, we construct larger images by assembling spatially consistent patches inferred from SSL embeddings, preserving long-range dependencies. Augmenting real data by generating variations of real images improves downstream classifier accuracy for patch-level and larger, image-scale classification tasks. Our models are effective even on datasets not encountered during training, demonstrating their robustness and generalizability. Generating images from learned embeddings is agnostic to the source of the embeddings. The SSL embeddings used to generate a large image can either be extracted from a reference image, or sampled from an auxiliary model conditioned on any related modality (e.g. class labels, text, genomic data). As proof of concept, we introduce the text-to-large image synthesis paradigm where we successfully synthesize large pathology and satellite images out of text descriptions.


著者 Alexandros Graikos,Srikar Yellapragada,Minh-Quan Le,Saarthak Kapse,Prateek Prasanna,Joel Saltz,Dimitris Samaras
発行日 2024-03-28 17:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク