Align, Adapt and Inject: Sound-guided Unified Image Generation

要約

テキストガイドによる画像生成は、拡散モデルの開発により前例のない進歩を遂げました。
テキストや画像を超えて、音は人間の知覚の範囲内で重要な要素であり、鮮やかな表現を提供し、対応するシーンと自然に一致します。
したがって、音を利用することは、画像生成研究における探求にとって有望な手段となります。
しかし、音声と画像の監視の関係は依然として大幅に未開発であり、関連する高品質のデータセットの不足がさらなる障害をもたらしています。
この論文では、音声ガイドによる画像生成、編集、様式化のための統一フレームワーク「整列、適応、挿入」(AAI) を提案します。
特に、私たちの方法は、入力サウンドを通常の単語のようなサウンドトークンに適応させ、既存の強力な拡散ベースの Text-to-Image (T2I) モデルとプラグアンドプレイできます。
具体的には、まずマルチモーダル エンコーダをトレーニングして、音声表現を事前トレーニングされたテキスト多様体と視覚多様体とそれぞれ位置合わせします。
次に、オーディオ表現を特定のセマンティクスで強化されたオーディオ トークンに適応させるオーディオ アダプターを提案します。これは、フリーズされた T2I モデルに柔軟に注入できます。
このようにして、既存の T2I モデルの強力な機能を活用しながら、さまざまな音の動的な情報を抽出して、便利で費用対効果の高い方法で音声ガイドによる画像の生成、編集、スタイル化を容易にすることができます。
実験結果は、私たちが提案した AAI が他のテキストおよび音声ガイドによる最先端の方法よりも優れていることを裏付けています。
また、当社の調整されたマルチモーダル エンコーダは、オーディオビジュアル検索タスクおよびオーディオテキスト検索タスクにおいて他のアプローチと競合することもできます。

要約(オリジナル)

Text-guided image generation has witnessed unprecedented progress due to the development of diffusion models. Beyond text and image, sound is a vital element within the sphere of human perception, offering vivid representations and naturally coinciding with corresponding scenes. Taking advantage of sound therefore presents a promising avenue for exploration within image generation research. However, the relationship between audio and image supervision remains significantly underdeveloped, and the scarcity of related, high-quality datasets brings further obstacles. In this paper, we propose a unified framework ‘Align, Adapt, and Inject’ (AAI) for sound-guided image generation, editing, and stylization. In particular, our method adapts input sound into a sound token, like an ordinary word, which can plug and play with existing powerful diffusion-based Text-to-Image (T2I) models. Specifically, we first train a multi-modal encoder to align audio representation with the pre-trained textual manifold and visual manifold, respectively. Then, we propose the audio adapter to adapt audio representation into an audio token enriched with specific semantics, which can be injected into a frozen T2I model flexibly. In this way, we are able to extract the dynamic information of varied sounds, while utilizing the formidable capability of existing T2I models to facilitate sound-guided image generation, editing, and stylization in a convenient and cost-effective manner. The experiment results confirm that our proposed AAI outperforms other text and sound-guided state-of-the-art methods. And our aligned multi-modal encoder is also competitive with other approaches in the audio-visual retrieval and audio-text retrieval tasks.

arxiv情報

著者 Yue Yang,Kaipeng Zhang,Yuying Ge,Wenqi Shao,Zeyue Xue,Yu Qiao,Ping Luo
発行日 2023-06-20 12:50:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS パーマリンク