Pay Attention: Accuracy Versus Interpretability Trade-off in Fine-tuned Diffusion Models

要約

タイトル:微調整された拡散モデルにおける精度と解釈性のトレードオフ:Pay Attention

要約:

– 拡散モデルの進歩により、画像品質が大幅に向上しており、生成モデルに関連する研究において重要な転換点となっている。
– 現在のアプローチでは、特定の画像に関連付けられた医療報告書の高い利用可能性のため、テキストから画像を生成するドメイン固有の事前学習済み基礎モデルを微調整することができる。
– しかしながら、現在のアプローチはほとんどアテンションレイヤーを見ないため、モデルが何を生成しているのか理解しているかを検証することができない。
– 本論文では、生成拡散モデルにおける画像の忠実度と解釈性の重要なトレードオフを発見した。
– 特に、学習可能なテキストエンコーダを使用してテキストから画像モデルを微調整すると、拡散モデルの解釈性が欠落することを示す。
– 最後に、言語エンコーダを凍結して保持することで、拡散モデルが追加のトレーニングなしに、複雑なマルチラベルセグメンテーションタスクの特定の疾患における最新のフレーズグラウンディングパフォーマンスを達成することで、拡散モデルの解釈性を実証する。
– コードとモデルはhttps://github.com/MischaD/chest-distillationにて入手可能。

要約(オリジナル)

The recent progress of diffusion models in terms of image quality has led to a major shift in research related to generative models. Current approaches often fine-tune pre-trained foundation models using domain-specific text-to-image pairs. This approach is straightforward for X-ray image generation due to the high availability of radiology reports linked to specific images. However, current approaches hardly ever look at attention layers to verify whether the models understand what they are generating. In this paper, we discover an important trade-off between image fidelity and interpretability in generative diffusion models. In particular, we show that fine-tuning text-to-image models with learnable text encoder leads to a lack of interpretability of diffusion models. Finally, we demonstrate the interpretability of diffusion models by showing that keeping the language encoder frozen, enables diffusion models to achieve state-of-the-art phrase grounding performance on certain diseases for a challenging multi-label segmentation task, without any additional training. Code and models will be available at https://github.com/MischaD/chest-distillation.

arxiv情報

著者 Mischa Dombrowski,Hadrien Reynaud,Johanna P. Müller,Matthew Baugh,Bernhard Kainz
発行日 2023-03-31 09:11:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク