ELODIN: Naming Concepts in Embedding Spaces

要約

テキストから画像への合成は、最近の進歩にもかかわらず、細かい制御ができないことが問題になっています。テキストのみでは、概念の一貫性や概念の汚染といった問題に対処することは困難である。我々は、複数の画像で再利用可能な特定の概念を生成することで、自然言語を画家のパレットのように新しい言葉で効果的に拡張し、制御を強化する方法を提案します。本手法は、これまでの貢献とは異なり、入力データからビジュアルをコピーすることなく、テキストだけで概念を生成することが可能である。本手法は、テキストのみのプロンプトと比較し、大幅な改善が見られる。

要約(オリジナル)

Despite recent advancements, the field of text-to-image synthesis still suffers from lack of fine-grained control. Using only text, it remains challenging to deal with issues such as concept coherence and concept contamination. We propose a method to enhance control by generating specific concepts that can be reused throughout multiple images, effectively expanding natural language with new words that can be combined much like a painter’s palette. Unlike previous contributions, our method does not copy visuals from input data and can generate concepts through text alone. We perform a set of comparisons that finds our method to be a significant improvement over text-only prompts.

arxiv情報

著者 Rodrigo Mello,Filipe Calegario,Geber Ramalho
発行日 2023-03-07 16:00:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.GR, cs.LG パーマリンク