ContraCLIP: Interpretable GAN generation driven by pairs of contrasting sentences

要約

この作業は、モデルにとらわれない方法で、事前にトレーニングされたGANの潜在空間で非線形の解釈可能なパスを発見する問題に対処します。
提案された方法では、発見は、意味論的双極子と呼ばれる対照的な意味論を持つ自然言語文のペアのセットによって推進されます。これは、トレーニング可能な潜在パスがエンコードするために必要な解釈の限界として機能します。
事前にトレーニングされたCLIPエンコーダーを使用することにより、文は視覚言語空間に投影され、そこでダイポールとして機能し、RBFベースのワーピング関数がセマンティックダイポールごとに1つずつ、一連​​の非線形方向パスを定義します。
このようにして、あるセマンティックポールから別のセマンティックポールへのトラバーサルが行われます。
視覚言語埋め込み空間の目的のパスに沿って変化を生成するGANの潜在空間のパスを発見する目的を定義することにより、基礎となる生成要因を制御し、状態の制限のいくつかに対処する直感的な方法を提供します。
-最先端の作品、つまり、a)通常は特定のGANアーキテクチャ(つまり、StyleGAN)に合わせて調整されている、b)画像埋め込み内の操作された画像と元の画像の相対位置、および画像の相対位置を無視する
およびテキストの埋め込み、およびc)突然の画像操作につながり、低密度の領域にすばやく到達するため、画質が低下し、生成要因の制御が制限されます。
2つの事前トレーニング済みGANを使用して主張を実証する広範な定性的および定量的結果を提供し、コードと事前トレーニング済みモデルをhttps://github.com/chi0tzp/ContraCLIPで公開します。

要約(オリジナル)

This work addresses the problem of discovering non-linear interpretable paths in the latent space of pre-trained GANs in a model-agnostic manner. In the proposed method, the discovery is driven by a set of pairs of natural language sentences with contrasting semantics, named semantic dipoles, that serve as the limits of the interpretation that we require by the trainable latent paths to encode. By using the pre-trained CLIP encoder, the sentences are projected into the vision-language space, where they serve as dipoles, and where RBF-based warping functions define a set of non-linear directional paths, one for each semantic dipole, allowing in this way traversals from one semantic pole to the other. By defining an objective that discovers paths in the latent space of GANs that generate changes along the desired paths in the vision-language embedding space, we provide an intuitive way of controlling the underlying generative factors and address some of the limitations of the state-of-the-art works, namely, that a) they are typically tailored to specific GAN architectures (i.e., StyleGAN), b) they disregard the relative position of the manipulated and the original image in the image embedding and the relative position of the image and the text embeddings, and c) they lead to abrupt image manipulations and quickly arrive at regions of low density and, thus, low image quality, providing limited control of the generative factors. We provide extensive qualitative and quantitative results that demonstrate our claims with two pre-trained GANs, and make the code and the pre-trained models publicly available at: https://github.com/chi0tzp/ContraCLIP

arxiv情報

著者 Christos Tzelepis,James Oldfield,Georgios Tzimiropoulos,Ioannis Patras
発行日 2022-06-05 06:13:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク