Lego: Learning to Disentangle and Invert Personalized Concepts Beyond Object Appearance in Text-to-Image Diffusion Models

要約

Text-to-Image (T2I) モデルは、名詞、外観、スタイルなどの概念の合成に優れています。
コンセプトのいくつかのサンプル画像に基づいてカスタマイズされたコンテンツの作成を可能にするために、Textual Inversion や DreamBooth などのメソッドを使用して、目的のコンセプトを反転し、それを新しいシーンに合成できるようにします。
ただし、オブジェクトの外観やスタイル (形容詞や動詞) を超えた個人化された概念を自然言語を通じて反転することは依然として課題です。
これらの概念の 2 つの重要な特徴が、現在の反転手法の限界に寄与しています。
1) 形容詞と動詞は名詞 (主語) と絡み合っており、主語の外観が概念の埋め込みに漏れ出す外観ベースの反転手法を妨げる可能性があります。2) そのような概念の説明は、多くの場合、単一の単語の埋め込みを超えて拡張されます。
この研究では、いくつかの画像例から主題に絡み合った概念を反転するように設計されたテキスト反転手法である Lego を紹介します。
レゴは、シンプルかつ効果的な主題分離ステップを使用して、関連する主題から概念を解きほぐし、単一/複数の埋め込み概念の逆転を導くコンテキスト損失を採用しています。
徹底したユーザー調査では、リファレンスに従ってコンセプトを忠実に生成するという点で、ベースラインと比較して、レゴが生成したコンセプトが 70% 以上の確率で好まれました。
さらに、LLM を使用した視覚的な質問応答は、レゴが生成したコンセプトがコンセプトのテキスト説明とよりよく一致していることを示唆しました。

要約(オリジナル)

Text-to-Image (T2I) models excel at synthesizing concepts such as nouns, appearances, and styles. To enable customized content creation based on a few example images of a concept, methods such as Textual Inversion and DreamBooth invert the desired concept and enable synthesizing it in new scenes. However, inverting personalized concepts that go beyond object appearance and style (adjectives and verbs) through natural language remains a challenge. Two key characteristics of these concepts contribute to the limitations of current inversion methods. 1) Adjectives and verbs are entangled with nouns (subject) and can hinder appearance-based inversion methods, where the subject appearance leaks into the concept embedding, and 2) describing such concepts often extends beyond single word embeddings. In this study, we introduce Lego, a textual inversion method designed to invert subject-entangled concepts from a few example images. Lego disentangles concepts from their associated subjects using a simple yet effective Subject Separation step and employs a Context Loss that guides the inversion of single/multi-embedding concepts. In a thorough user study, Lego-generated concepts were preferred over 70% of the time when compared to the baseline in terms of authentically generating concepts according to a reference. Additionally, visual question answering using an LLM suggested Lego-generated concepts are better aligned with the text description of the concept.

arxiv情報

著者 Saman Motamed,Danda Pani Paudel,Luc Van Gool
発行日 2024-09-27 14:04:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク