How to Blend Concepts in Diffusion Models

要約

過去 10 年間、概念を表現するために多次元 (潜在) 空間を使用する動きがありました。
しかし、これらの概念をどのように操作したり、論理的に推論したりするのかは依然としてほとんど不明です。
最近の手法の中には、複数の潜在的な表現とそのつながりを利用するものもあり、この研究課題はさらに複雑なものになっています。
私たちの目標は、潜在空間での操作が基礎となる概念にどのような影響を与えるかを理解することです。
そのために、拡散モデルを通じてコン​​セプトをブレンドするというタスクを検討します。
拡散モデルは、テキスト プロンプトの潜在表現と、画像の再構築と生成を可能にする潜在空間との間の接続に基づいています。
このタスクにより、さまざまなテキストベースの組み合わせ戦略を試し、視覚的な分析を通じて簡単に評価できるようになります。
私たちの結論は、最適な戦略はブレンドのコンテキストによって異なりますが、空間操作によるコンセプトのブレンドは可能であるということです。

要約(オリジナル)

For the last decade, there has been a push to use multi-dimensional (latent) spaces to represent concepts; and yet how to manipulate these concepts or reason with them remains largely unclear. Some recent methods exploit multiple latent representations and their connection, making this research question even more entangled. Our goal is to understand how operations in the latent space affect the underlying concepts. To that end, we explore the task of concept blending through diffusion models. Diffusion models are based on a connection between a latent representation of textual prompts and a latent space that enables image reconstruction and generation. This task allows us to try different text-based combination strategies, and evaluate easily through a visual analysis. Our conclusion is that concept blending through space manipulation is possible, although the best strategy depends on the context of the blend.

arxiv情報

著者 Giorgio Longari,Lorenzo Olearo,Simone Melzi,Rafael Peñaloza,Alessandro Raganato
発行日 2024-07-19 13:05:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク