要約
テキストから画像への拡散モデルは、テキスト プロンプトから高品質で多様な画像を生成する比類のない能力を実証しています。
ただし、これらのモデルによって学習された内部表現は依然として謎のままです。
この研究では、拡散モデルによってテキスト概念の内部表現を解釈する新しい方法である Conceptor を紹介します。
この解釈は、概念を人間が解釈可能なテキスト要素の小さなセットに分解することによって得られます。
最先端の安定拡散モデルに適用された Conceptor は、概念の表現における自明ではない構造を明らかにします。
たとえば、テキストの意味論を超えた、概念間の驚くべき視覚的なつながりが見つかります。
さらに、模範、偏見、有名な芸術スタイルの混合、または概念の複数の意味の同時融合に依存する概念も発見します。
大規模な一連の実験を通じて、私たちは、さまざまな抽象的、具体的、および複雑なテキスト概念に対して、意味があり、堅牢で、忠実な分解を提供する Conceptor の能力を実証しながら、各分解要素を、生成されたオブジェクトに対する対応する視覚的影響に自然に結び付けることができます。
画像。
私たちのコードは https://hila-chefer.github.io/Conceptor/ で入手できます。
要約(オリジナル)
Text-to-image diffusion models have demonstrated an unparalleled ability to generate high-quality, diverse images from a textual prompt. However, the internal representations learned by these models remain an enigma. In this work, we present Conceptor, a novel method to interpret the internal representation of a textual concept by a diffusion model. This interpretation is obtained by decomposing the concept into a small set of human-interpretable textual elements. Applied over the state-of-the-art Stable Diffusion model, Conceptor reveals non-trivial structures in the representations of concepts. For example, we find surprising visual connections between concepts, that transcend their textual semantics. We additionally discover concepts that rely on mixtures of exemplars, biases, renowned artistic styles, or a simultaneous fusion of multiple meanings of the concept. Through a large battery of experiments, we demonstrate Conceptor’s ability to provide meaningful, robust, and faithful decompositions for a wide variety of abstract, concrete, and complex textual concepts, while allowing to naturally connect each decomposition element to its corresponding visual impact on the generated images. Our code will be available at: https://hila-chefer.github.io/Conceptor/
arxiv情報
著者 | Hila Chefer,Oran Lang,Mor Geva,Volodymyr Polosukhin,Assaf Shocher,Michal Irani,Inbar Mosseri,Lior Wolf |
発行日 | 2023-10-05 12:55:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google