要約
このペーパーでは、画像をその構成要素である主題とスタイルに分解する手法である UnZipLoRA を紹介します。これは 2 つの異なる LoRA (Low-Rank Adaptations) として表されます。
主題またはスタイルのいずれかに個別に焦点を当てたり、それぞれに個別のトレーニング セットを必要としたりする既存のパーソナライゼーション手法とは異なり、UnZipLoRA は、両方の LoRA を同時にトレーニングすることで、単一の画像からこれらの要素を解きほぐします。
UnZipLoRA は、結果として得られる LoRA に互換性があることを保証します。つまり、直接追加を使用して LoRA をシームレスに組み合わせることができます。
UnZipLoRA を使用すると、主題とスタイルの独立した操作と再文脈化が可能になります。これには、それぞれのバリエーションの生成、抽出されたスタイルの新しい主題への適用、それらを再結合して元の画像を再構築したり、新しいバリエーションを作成したりすることが含まれます。
主題とスタイルの絡み合いという課題に対処するために、UnZipLoRA は新しいプロンプト分離技術と、列とブロックの分離戦略を採用して、主題とスタイルの特性を正確に保存し、学習された LoRA 間の互換性を確保します。
人間を対象とした研究と定量的指標による評価により、DreamBooth-LoRA、インスピレーション ツリー、B-LoRA などの他の最先端の方法と比較した UnZipLoRA の有効性が実証されています。
要約(オリジナル)
This paper introduces UnZipLoRA, a method for decomposing an image into its constituent subject and style, represented as two distinct LoRAs (Low-Rank Adaptations). Unlike existing personalization techniques that focus on either subject or style in isolation, or require separate training sets for each, UnZipLoRA disentangles these elements from a single image by training both the LoRAs simultaneously. UnZipLoRA ensures that the resulting LoRAs are compatible, i.e., they can be seamlessly combined using direct addition. UnZipLoRA enables independent manipulation and recontextualization of subject and style, including generating variations of each, applying the extracted style to new subjects, and recombining them to reconstruct the original image or create novel variations. To address the challenge of subject and style entanglement, UnZipLoRA employs a novel prompt separation technique, as well as column and block separation strategies to accurately preserve the characteristics of subject and style, and ensure compatibility between the learned LoRAs. Evaluation with human studies and quantitative metrics demonstrates UnZipLoRA’s effectiveness compared to other state-of-the-art methods, including DreamBooth-LoRA, Inspiration Tree, and B-LoRA.
arxiv情報
著者 | Chang Liu,Viraj Shah,Aiyu Cui,Svetlana Lazebnik |
発行日 | 2024-12-05 18:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google