要約
大規模な拡散ニューラル ネットワークは、テキストから画像への生成における重要なマイルストーンを表していますが、解釈可能性の分析が欠けているため、理解が不十分なままです。
この論文では、最近オープンソース化されたモデルである Stable Diffusion でテキスト画像属性分析を実行します。
ピクセルレベルのアトリビューション マップを生成するために、ノイズ除去サブネットワーク内のクロスアテンション ワード ピクセル スコアをアップスケールして集約し、メソッド DAAM と名付けます。
名詞のセマンティック セグメンテーション能力と、人間が評価したすべての品詞の一般化された帰属品質をテストすることで、その正確性を評価します。
次に、DAAM を適用してピクセル空間での構文の役割を研究し、10 の一般的な依存関係のヘッド依存ヒート マップ相互作用パターンを特徴付けます。
最後に、特徴のもつれに焦点を当てて、DAAM を使用していくつかの意味現象を研究します。そこでは、副称詞が世代の質を悪化させ、説明的な形容詞が広範に参加することがわかります。
私たちの知る限り、視覚言語学的観点から大規模な拡散モデルを解釈したのは私たちが初めてであり、これにより将来の研究が可能になります。
コードは https://github.com/castorini/daam にあります。
要約(オリジナル)
Large-scale diffusion neural networks represent a substantial milestone in text-to-image generation, but they remain poorly understood, lacking interpretability analyses. In this paper, we perform a text-image attribution analysis on Stable Diffusion, a recently open-sourced model. To produce pixel-level attribution maps, we upscale and aggregate cross-attention word-pixel scores in the denoising subnetwork, naming our method DAAM. We evaluate its correctness by testing its semantic segmentation ability on nouns, as well as its generalized attribution quality on all parts of speech, rated by humans. We then apply DAAM to study the role of syntax in the pixel space, characterizing head–dependent heat map interaction patterns for ten common dependency relations. Finally, we study several semantic phenomena using DAAM, with a focus on feature entanglement, where we find that cohyponyms worsen generation quality and descriptive adjectives attend too broadly. To our knowledge, we are the first to interpret large diffusion models from a visuolinguistic perspective, which enables future lines of research. Our code is at https://github.com/castorini/daam.
arxiv情報
著者 | Raphael Tang,Linqing Liu,Akshat Pandey,Zhiying Jiang,Gefei Yang,Karun Kumar,Pontus Stenetorp,Jimmy Lin,Ferhan Ture |
発行日 | 2022-12-07 18:37:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google