Selectively Informative Description can Reduce Undesired Embedding Entanglements in Text-to-Image Personalization

要約

テキストから画像へのパーソナライゼーションにおいて、タイムリーかつ重大な課題は、生成された画像が参照画像に存在するバイアスに過剰適合する傾向があることです。
私たちは、バイアスを背景、近くのオブジェクト、結び付けられたオブジェクト、物質(スタイルの再文脈化における)、およびポーズのバイアスに包括的に分類することから研究を開始します。
これらのバイアスは、埋め込まれた被写体への絡み合いにより、生成された画像に現れます。
この望ましくない埋め込みのもつれは、参照画像からのバイアスが生成画像に反映されるだけでなく、生成画像と所定の生成プロンプトとの整合性を著しく低下させます。
この課題に対処するために、我々は、被験者のクラス識別を特徴付けるだけの一般的なアプローチから逸脱したテキスト記述戦略である SID~(Selectively Informative description) を提案します。
SID はマルチモーダル GPT-4 を利用して生成され、最適化ベースのモデルにシームレスに統合できます。
クロスアテンションマップ、主題の位置合わせ、非主題のもつれの解消、およびテキストの位置合わせの分析とともに、包括的な実験結果を紹介します。

要約(オリジナル)

In text-to-image personalization, a timely and crucial challenge is the tendency of generated images overfitting to the biases present in the reference images. We initiate our study with a comprehensive categorization of the biases into background, nearby-object, tied-object, substance (in style re-contextualization), and pose biases. These biases manifest in the generated images due to their entanglement into the subject embedding. This undesired embedding entanglement not only results in the reflection of biases from the reference images into the generated images but also notably diminishes the alignment of the generated images with the given generation prompt. To address this challenge, we propose SID~(Selectively Informative Description), a text description strategy that deviates from the prevalent approach of only characterizing the subject’s class identification. SID is generated utilizing multimodal GPT-4 and can be seamlessly integrated into optimization-based models. We present comprehensive experimental results along with analyses of cross-attention maps, subject-alignment, non-subject-disentanglement, and text-alignment.

arxiv情報

著者 Jimyeong Kim,Jungwon Park,Wonjong Rhee
発行日 2024-03-22 16:35:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク