ELODIN: Naming Concepts in Embedding Spaces

要約

最近の進歩にもかかわらず、テキストから画像への合成の分野は、まだきめ細かい制御の欠如に悩まされています。
テキストのみを使用すると、概念の一貫性や概念の汚染などの問題に対処することは依然として困難です。
複数の画像全体で再利用できる特定の概念を生成し、画家のパレットのように組み合わせることができる新しい単語で自然言語を効果的に拡張することにより、制御を強化する方法を提案します。
以前の貢献とは異なり、私たちの方法は入力データからビジュアルをコピーせず、テキストだけでコンセプトを生成できます。
一連の比較を実行すると、この方法がテキストのみのプロンプトよりも大幅に改善されていることがわかります。

要約(オリジナル)

Despite recent advancements, the field of text-to-image synthesis still suffers from lack of fine-grained control. Using only text, it remains challenging to deal with issues such as concept coherence and concept contamination. We propose a method to enhance control by generating specific concepts that can be reused throughout multiple images, effectively expanding natural language with new words that can be combined much like a painter’s palette. Unlike previous contributions, our method does not copy visuals from input data and can generate concepts through text alone. We perform a set of comparisons that finds our method to be a significant improvement over text-only prompts.

arxiv情報

著者 Rodrigo Mello,Filipe Calegario,Geber Ramalho
発行日 2023-03-09 17:10:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.GR, cs.LG パーマリンク