Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models

要約

テキストから画像への拡散モデルの進歩により、下流での実用的なアプリケーションが広範囲に広がりましたが、そのようなモデルではテキストと画像の間の位置ずれの問題が頻繁に発生します。
絡み合っていない 2 つの概念の組み合わせの生成を例にとると、たとえば「ティーカップのアイスコーラ」というプロンプトが与えられた場合、既存のモデルは通常、アイスコーラは通常ガラスカップと同時発生するため、通常、アイスコーラの入ったガラスカップを生成します。
モデルトレーニング中のお茶の1つ。
このような不整合の原因は、テキストから画像への拡散モデルの潜在意味空間の混乱に起因すると考えられているため、「ティーカップのアイスコーラ」現象を潜在概念不整合 (LC-Mis) と呼びます。
私たちは大規模言語モデル (LLM) を活用して LC-Mis の範囲を徹底的に調査し、拡散モデルの潜在的なセマンティクスをテキスト プロンプトに合わせるための自動パイプラインを開発します。
経験的評価により、LC-Mis エラーを大幅に削減し、テキストから画像への拡散モデルの堅牢性と多用途性を強化する、私たちのアプローチの有効性が確認されています。
コードとデータセットはここにあります: https://github.com/RossoneriZhao/iced_coke。

要約(オリジナル)

Advancements in text-to-image diffusion models have broadened extensive downstream practical applications, but such models often encounter misalignment issues between text and image. Taking the generation of a combination of two disentangled concepts as an example, say given the prompt ‘a tea cup of iced coke’, existing models usually generate a glass cup of iced coke because the iced coke usually co-occurs with the glass cup instead of the tea one during model training. The root of such misalignment is attributed to the confusion in the latent semantic space of text-to-image diffusion models, and hence we refer to the ‘a tea cup of iced coke’ phenomenon as Latent Concept Misalignment (LC-Mis). We leverage large language models (LLMs) to thoroughly investigate the scope of LC-Mis, and develop an automated pipeline for aligning the latent semantics of diffusion models to text prompts. Empirical assessments confirm the effectiveness of our approach, substantially reducing LC-Mis errors and enhancing the robustness and versatility of text-to-image diffusion models. The code and dataset are here: https://github.com/RossoneriZhao/iced_coke.

arxiv情報

著者 Juntu Zhao,Junyu Deng,Yixin Ye,Chongxuan Li,Zhijie Deng,Dequan Wang
発行日 2024-08-05 08:36:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク