要約
私たちは、事前にトレーニングされたテキストから画像への拡散モデルを活用した、マルチコンセプトのパーソナライゼーションの手法である TokenVerse を紹介します。
私たちのフレームワークは、単一の画像から複雑な視覚要素と属性を解きほぐすと同時に、複数の画像から抽出された概念の組み合わせをシームレスにプラグアンドプレイで生成できるようにします。
従来の作品とは異なり、TokenVerse は複数のコンセプトを持つ複数の画像を扱うことができ、オブジェクト、アクセサリー、マテリアル、ポーズ、ライティングなど幅広いコンセプトをサポートします。
私たちの研究では、入力テキストが注意と調整 (シフトとスケール) の両方を通じて生成に影響を与える、DiT ベースのテキストから画像へのモデルを活用しています。
変調空間は意味論的であり、複雑な概念を局所的に制御できることがわかります。
この洞察に基づいて、画像とテキストの説明を入力として受け取り、各単語に対して変調空間内で明確な方向を見つける最適化ベースのフレームワークを考案します。
これらの指示を使用して、学習した概念を目的の構成に組み合わせた新しい画像を生成できます。
困難なパーソナライゼーション設定における TokenVerse の有効性を実証し、既存の方法と比較した TokenVerse の利点を紹介します。
プロジェクトの Web ページ (https://token-verse.github.io/)
要約(オリジナル)
We present TokenVerse — a method for multi-concept personalization, leveraging a pre-trained text-to-image diffusion model. Our framework can disentangle complex visual elements and attributes from as little as a single image, while enabling seamless plug-and-play generation of combinations of concepts extracted from multiple images. As opposed to existing works, TokenVerse can handle multiple images with multiple concepts each, and supports a wide-range of concepts, including objects, accessories, materials, pose, and lighting. Our work exploits a DiT-based text-to-image model, in which the input text affects the generation through both attention and modulation (shift and scale). We observe that the modulation space is semantic and enables localized control over complex concepts. Building on this insight, we devise an optimization-based framework that takes as input an image and a text description, and finds for each word a distinct direction in the modulation space. These directions can then be used to generate new images that combine the learned concepts in a desired configuration. We demonstrate the effectiveness of TokenVerse in challenging personalization settings, and showcase its advantages over existing methods. project’s webpage in https://token-verse.github.io/
arxiv情報
著者 | Daniel Garibi,Shahar Yadin,Roni Paiss,Omer Tov,Shiran Zada,Ariel Ephrat,Tomer Michaeli,Inbar Mosseri,Tali Dekel |
発行日 | 2025-01-21 15:49:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google