要約
テキスト誘導拡散モデルは、テキストの説明から忠実度の高いコンテンツを生成することにより、生成タスクに革命をもたらしました。
また、テキストの条件付けによって概念を置き換えることができる編集パラダイムも可能になりました (例: 犬をトラに)。
この研究では、新しいアプローチを模索します。概念を置き換えるのではなく、概念自体を強化または抑制できるか?
実証研究を通じて、テキストガイドによる普及モデルで概念を分解できる傾向を特定しました。
この洞察を活用して、新しい要素を導入せずに実際の入力で分解された概念をスケールアップまたはスケールダウンするためのシンプルかつ効果的な方法である ScalingConcept を紹介します。
私たちのアプローチを体系的に評価するために、概念が不完全で強化する必要がある WeakConcept-10 データセットを提示します。
さらに重要なことは、ScalingConcept により、標準的なポーズの生成や生成サウンドのハイライトや削除などのタスクを含む、画像とオーディオの領域にわたるさまざまな新しいゼロショット アプリケーションが可能になります。
要約(オリジナル)
Text-guided diffusion models have revolutionized generative tasks by producing high-fidelity content from text descriptions. They have also enabled an editing paradigm where concepts can be replaced through text conditioning (e.g., a dog to a tiger). In this work, we explore a novel approach: instead of replacing a concept, can we enhance or suppress the concept itself? Through an empirical study, we identify a trend where concepts can be decomposed in text-guided diffusion models. Leveraging this insight, we introduce ScalingConcept, a simple yet effective method to scale decomposed concepts up or down in real input without introducing new elements. To systematically evaluate our approach, we present the WeakConcept-10 dataset, where concepts are imperfect and need to be enhanced. More importantly, ScalingConcept enables a variety of novel zero-shot applications across image and audio domains, including tasks such as canonical pose generation and generative sound highlighting or removal.
arxiv情報
著者 | Chao Huang,Susan Liang,Yunlong Tang,Yapeng Tian,Anurag Kumar,Chenliang Xu |
発行日 | 2024-10-31 17:09:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google