Multiresolution Textual Inversion

要約

Textual Inversion を拡張して、異なる解像度で概念を表す疑似単語を学習します。
これにより、さまざまな詳細レベルのコンセプトを使用した画像を生成したり、言語を使用してさまざまな解像度を操作したりできます。
一度学習すると、ユーザーは元のコンセプトにさまざまなレベルで一致する画像を生成できます。
「$S^*(0)$ の写真」は正確なオブジェクトを生成しますが、プロンプト「$S^*(0.8)$ の写真」は大まかな輪郭と色のみに一致します。
私たちのフレームワークを使用すると、さまざまな方法で構成できる個別の疑似単語として、画像のさまざまな解像度 (詳細、テクスチャ、スタイルなど) を使用する画像を生成できます。
次の URL でコードを公開します: https://github.com/giannisdaras/multires_textual_inversion

要約(オリジナル)

We extend Textual Inversion to learn pseudo-words that represent a concept at different resolutions. This allows us to generate images that use the concept with different levels of detail and also to manipulate different resolutions using language. Once learned, the user can generate images at different levels of agreement to the original concept; ‘A photo of $S^*(0)$’ produces the exact object while the prompt ‘A photo of $S^*(0.8)$’ only matches the rough outlines and colors. Our framework allows us to generate images that use different resolutions of an image (e.g. details, textures, styles) as separate pseudo-words that can be composed in various ways. We open-soure our code in the following URL: https://github.com/giannisdaras/multires_textual_inversion

arxiv情報

著者 Giannis Daras,Alexandros G. Dimakis
発行日 2022-11-30 15:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク