Redefining in Dictionary: Towards a Enhanced Semantic Understanding of Creative Generation

要約

人間モデルでも拡散モデルでも、創造性は本質的に抽象的な概念のままです。
したがって、単に「クリエイティブ」をプロンプトに追加しても、モデルによる信頼性の高い意味認識は得られません。
この研究では、関係のない 2 つの概念を結合することを目的とした TP2O タスクを通じて「クリエイティブ」という抽象概念を具体化し、CreTok を導入して「クリエイティブ」をトークン $\texttt{}$ として再定義します。
この再定義は、概念の混合のためのより具体的で普遍的に適応可能な表現を提供します。
この再定義は継続的に行われ、異なる概念を持つテキストのペアのランダムなサンプリングが繰り返され、ターゲットと一定のプロンプトの間のコサイン類似性が最適化されます。
このアプローチにより、$\texttt{}$ は創造的なコンセプトの融合方法を学ぶことができます。
広範な実験により、$\texttt{}$ によって可能になる創造的な能力が最近の SOTA 普及モデルを大幅に上回り、優れた創造的な生成を達成できることが実証されました。
CreTok は、$\texttt{}$ があらゆるコンセプトのユニバーサル トークンとして機能するため、より優れた柔軟性と時間オーバーヘッドの削減を示し、再トレーニングすることなくクリエイティブな生成を容易にします。

要約(オリジナル)

Creativity, both in human and diffusion models, remains an inherently abstract concept; thus, simply adding ‘creative’ to a prompt does not yield reliable semantic recognition by the model. In this work, we concretize the abstract notion of ‘creative’ through the TP2O task, which aims to merge two unrelated concepts, and introduce CreTok, redefining ‘creative’ as the token $\texttt{}$. This redefinition offers a more concrete and universally adaptable representation for concept blending. This redefinition occurs continuously, involving the repeated random sampling of text pairs with different concepts and optimizing cosine similarity between target and constant prompts. This approach enables $\texttt{}$ to learn a method for creative concept fusion. Extensive experiments demonstrate that the creative capability enabled by $\texttt{}$ substantially surpasses recent SOTA diffusion models and achieves superior creative generation. CreTok exhibits greater flexibility and reduced time overhead, as $\texttt{}$ can function as a universal token for any concept, facilitating creative generation without retraining.

arxiv情報

著者 Fu Feng,Yucheng Xie,Jing Wang,Xin Geng
発行日 2024-10-31 17:19:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク