Break-A-Scene: Extracting Multiple Concepts from a Single Image

要約

テキストから画像へのモデルのパーソナライゼーションは、ユーザーが提供したコンセプトをモデルに導入し、さまざまなコンテキストでのモデルの合成を可能にすることを目的としています。
しかし、現在の手法は主に、背景やポーズが異なる複数の画像から 1 つの概念を学習する場合に焦点を当てており、異なるシナリオに適応させる場合には困難を伴います。
この作業では、テキスト シーン分解のタスクを導入します。複数の概念が含まれる可能性があるシーンの 1 つの画像が与えられた場合、概念ごとに個別のテキスト トークンを抽出し、生成されたシーンをきめ細かく制御できるようにすることを目指しています。
この目的を達成するために、ターゲット概念の存在を示すマスクを使用して入力画像を拡張することを提案します。
これらのマスクは、ユーザーが提供することも、事前トレーニングされたセグメンテーション モデルによって自動的に生成することもできます。
次に、一連の専用のテキスト埋め込み (ハンドル) とモデルの重みを最適化し、概念の正確な把握と過剰適合の回避の間で微妙なバランスをとる、新しい 2 フェーズのカスタマイズ プロセスを紹介します。
マスクされた拡散損失を採用して、ハンドルが割り当てられた概念を生成できるようにし、もつれを防ぐためにクロスアテンション マップ上の新しい損失によって補完されます。
また、生成された画像内で複数の概念を組み合わせる能力を向上させることを目的としたトレーニング戦略であるユニオン サンプリングも紹介します。
私たちはいくつかの自動測定基準を使用して、私たちの方法をいくつかのベースラインと定量的に比較し、ユーザー調査を使用して結果をさらに確認します。
最後に、私たちの方法のいくつかの応用例を紹介します。
プロジェクトページはhttps://omriavrahami.com/break-a-scene/からご覧いただけます。

要約(オリジナル)

Text-to-image model personalization aims to introduce a user-provided concept to the model, allowing its synthesis in diverse contexts. However, current methods primarily focus on the case of learning a single concept from multiple images with variations in backgrounds and poses, and struggle when adapted to a different scenario. In this work, we introduce the task of textual scene decomposition: given a single image of a scene that may contain several concepts, we aim to extract a distinct text token for each concept, enabling fine-grained control over the generated scenes. To this end, we propose augmenting the input image with masks that indicate the presence of target concepts. These masks can be provided by the user or generated automatically by a pre-trained segmentation model. We then present a novel two-phase customization process that optimizes a set of dedicated textual embeddings (handles), as well as the model weights, striking a delicate balance between accurately capturing the concepts and avoiding overfitting. We employ a masked diffusion loss to enable handles to generate their assigned concepts, complemented by a novel loss on cross-attention maps to prevent entanglement. We also introduce union-sampling, a training strategy aimed to improve the ability of combining multiple concepts in generated images. We use several automatic metrics to quantitatively compare our method against several baselines, and further affirm the results using a user study. Finally, we showcase several applications of our method. Project page is available at: https://omriavrahami.com/break-a-scene/

arxiv情報

著者 Omri Avrahami,Kfir Aberman,Ohad Fried,Daniel Cohen-Or,Dani Lischinski
発行日 2023-05-25 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク