要約
新しいアーキテクチャは最近、生成画像合成を改善し、さまざまなタスクで優れた視覚品質をもたらしました。
特に注目すべきは、CLIPなどの強力なマルチモーダルモデルの出現により前例のない成長を遂げた「AIアート」の分野です。
音声と画像の合成モデルを組み合わせることで、いわゆる「プロンプトエンジニアリング」が確立されました。このモデルでは、慎重に選択および構成された文を使用して、合成された画像で特定の視覚スタイルを実現します。
このノートでは、検索拡張拡散モデル(RDM)に基づく代替アプローチを紹介します。
RDMでは、各トレーニングインスタンスのトレーニング中に、最も近いネイバーのセットが外部データベースから取得され、拡散モデルはこれらの有益なサンプルを条件とします。
推論(サンプリング)中に、検索データベースを、たとえば特定の視覚スタイルの画像のみを含む、より専門的なデータベースに置き換えます。
これは、トレーニング後に一般的なトレーニング済みモデルを促し、それによって特定の視覚スタイルを指定するための新しい方法を提供します。
私たちの実験で示されているように、このアプローチは、テキストプロンプト内で視覚スタイルを指定するよりも優れています。
https://github.com/CompVis/latent-diffusionでコードとモデルの重みをオープンソース化します。
要約(オリジナル)
Novel architectures have recently improved generative image synthesis leading to excellent visual quality in various tasks. Of particular note is the field of “AI-Art”, which has seen unprecedented growth with the emergence of powerful multimodal models such as CLIP. By combining speech and image synthesis models, so-called “prompt-engineering” has become established, in which carefully selected and composed sentences are used to achieve a certain visual style in the synthesized image. In this note, we present an alternative approach based on retrieval-augmented diffusion models (RDMs). In RDMs, a set of nearest neighbors is retrieved from an external database during training for each training instance, and the diffusion model is conditioned on these informative samples. During inference (sampling), we replace the retrieval database with a more specialized database that contains, for example, only images of a particular visual style. This provides a novel way to prompt a general trained model after training and thereby specify a particular visual style. As shown by our experiments, this approach is superior to specifying the visual style within the text prompt. We open-source code and model weights at https://github.com/CompVis/latent-diffusion .
arxiv情報
著者 | Robin Rombach,Andreas Blattmann,Björn Ommer |
発行日 | 2022-07-26 16:56:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google