要約
一般的なテキスト駆動型の画像編集のためのシンプルで斬新な方法である UniTune を紹介します。
UniTune は、入力として任意の画像とテキストによる編集の説明を取得し、入力画像に対する高いセマンティックおよび視覚的忠実度を維持しながら編集を実行します。
UniTune は、アート ディレクション用の直感的なインターフェイスであるテキストを使用し、マスクやスケッチなどの追加入力を必要としません。
私たちの方法の核心は、パラメーターを正しく選択することで、単一の画像で大規模なテキストから画像への拡散モデルを微調整し、モデルが入力画像への忠実度を維持しながら表現力を維持できるという観察です。
操作。
テキストから画像へのモデルとして Imagen を使用しましたが、UniTune は他の大規模モデルでも動作することを期待しています。
さまざまなユースケースでメソッドをテストし、その幅広い適用性を示します。
要約(オリジナル)
We present UniTune, a simple and novel method for general text-driven image editing. UniTune gets as input an arbitrary image and a textual edit description, and carries out the edit while maintaining high semantic and visual fidelity to the input image. UniTune uses text, an intuitive interface for art-direction, and does not require additional inputs, like masks or sketches. At the core of our method is the observation that with the right choice of parameters, we can fine-tune a large text-to-image diffusion model on a single image, encouraging the model to maintain fidelity to the input image while still allowing expressive manipulations. We used Imagen as our text-to-image model, but we expect UniTune to work with other large-scale models as well. We test our method in a range of different use cases, and demonstrate its wide applicability.
arxiv情報
著者 | Dani Valevski,Matan Kalman,Yossi Matias,Yaniv Leviathan |
発行日 | 2022-10-19 17:35:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google