An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

要約

テキストから画像へのモデルは、自然言語を通じて作成を導く前例のない自由を提供します。
しかし、特定のユニークなコンセプトの画像を生成したり、それらの外観を変更したり、新しい役割や斬新なシーンでそれらを構成したりするために、そのような自由をどのように行使できるかは不明です.
言い換えれば、言語誘導モデルを使用して、猫を絵に変えたり、お気に入りのおもちゃに基づいて新製品を想像したりするにはどうすればよいでしょうか?
ここでは、そのような創造的な自由を可能にするシンプルなアプローチを紹介します。
オブジェクトやスタイルなど、ユーザーが提供した概念の 3 ~ 5 枚の画像のみを使用して、凍結されたテキストから画像へのモデルの埋め込みスペースで新しい「単語」を通じてそれを表現することを学びます。
これらの「言葉」は、自然言語の文章に構成することができ、直感的な方法でパーソナライズされた作成を導きます。
特に、ユニークで多様な概念をキャプチャするには、単一の単語の埋め込みで十分であるという証拠が見つかりました。
私たちのアプローチを幅広いベースラインと比較し、さまざまなアプリケーションやタスクにわたって概念をより忠実に表現できることを示します。
私たちのコード、データ、および新しい単語は、https://textual-inversion.github.io で入手できます。

要約(オリジナル)

Text-to-image models offer unprecedented freedom to guide creation through natural language. Yet, it is unclear how such freedom can be exercised to generate images of specific unique concepts, modify their appearance, or compose them in new roles and novel scenes. In other words, we ask: how can we use language-guided models to turn our cat into a painting, or imagine a new product based on our favorite toy? Here we present a simple approach that allows such creative freedom. Using only 3-5 images of a user-provided concept, like an object or a style, we learn to represent it through new ‘words’ in the embedding space of a frozen text-to-image model. These ‘words’ can be composed into natural language sentences, guiding personalized creation in an intuitive way. Notably, we find evidence that a single word embedding is sufficient for capturing unique and varied concepts. We compare our approach to a wide range of baselines, and demonstrate that it can more faithfully portray the concepts across a range of applications and tasks. Our code, data and new words will be available at: https://textual-inversion.github.io

arxiv情報

著者 Rinon Gal,Yuval Alaluf,Yuval Atzmon,Or Patashnik,Amit H. Bermano,Gal Chechik,Daniel Cohen-Or
発行日 2022-08-02 17:50:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.GR, cs.LG パーマリンク