要約
大規模なテキストから画像へのモデルは、AI の進化において目覚ましい飛躍を遂げ、特定のテキスト プロンプトからの高品質で多様な画像の合成を可能にしました。
ただし、これらのモデルには、特定の参照セット内の対象の外観を模倣し、さまざまなコンテキストでそれらの新しい表現を合成する機能がありません。
この作業では、テキストから画像への拡散モデルの「パーソナライズ」のための新しいアプローチを提示します。
被写体のほんの数枚の画像を入力として与えられると、事前トレーニング済みのテキストから画像へのモデルを微調整して、一意の識別子をその特定の被写体にバインドすることを学習します。
被写体がモデルの出力ドメインに埋め込まれたら、一意の識別子を使用して、さまざまなシーンでコンテキスト化された被写体の新しい写実的な画像を合成できます。
モデルに埋め込まれたセマンティック プライアを新しい自己クラス固有の事前保存損失で活用することにより、参照画像には表示されないさまざまなシーン、ポーズ、ビュー、照明条件で被写体を合成することができます。
主題の重要な特徴を維持しながら、主題の再文脈化、テキストガイド付きビューの合成、芸術的なレンダリングなど、以前は難攻不落だったいくつかのタスクに私たちの手法を適用します。
また、サブジェクト駆動型生成のこの新しいタスクのための新しいデータセットと評価プロトコルも提供します。
プロジェクトページ:https://dreambooth.github.io/
要約(オリジナル)
Large text-to-image models achieved a remarkable leap in the evolution of AI, enabling high-quality and diverse synthesis of images from a given text prompt. However, these models lack the ability to mimic the appearance of subjects in a given reference set and synthesize novel renditions of them in different contexts. In this work, we present a new approach for ‘personalization’ of text-to-image diffusion models. Given as input just a few images of a subject, we fine-tune a pretrained text-to-image model such that it learns to bind a unique identifier with that specific subject. Once the subject is embedded in the output domain of the model, the unique identifier can be used to synthesize novel photorealistic images of the subject contextualized in different scenes. By leveraging the semantic prior embedded in the model with a new autogenous class-specific prior preservation loss, our technique enables synthesizing the subject in diverse scenes, poses, views and lighting conditions that do not appear in the reference images. We apply our technique to several previously-unassailable tasks, including subject recontextualization, text-guided view synthesis, and artistic rendering, all while preserving the subject’s key features. We also provide a new dataset and evaluation protocol for this new task of subject-driven generation. Project page: https://dreambooth.github.io/
arxiv情報
著者 | Nataniel Ruiz,Yuanzhen Li,Varun Jampani,Yael Pritch,Michael Rubinstein,Kfir Aberman |
発行日 | 2023-03-15 17:52:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google