Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation

要約

拡散モデルと大規模言語モデル (LLM) の最近の進歩により、AIGC の分野が大きく前進しました。
Text-to-Audio (TTA) は、自然言語プロンプトから音声を生成するように設計された急成長中の AIGC アプリケーションであり、ますます注目を集めています。
しかし、既存の TTA 研究では、特に複雑なテキスト入力の場合、生成品質とテキストと音声の調整に苦労することがよくあります。
最先端の Text-to-Image (T2I) 拡散モデルからインスピレーションを得て、固有の生成力と正確なクロスモーダル アライメントを効果的に活用することで、T2I モデル フレームワークを TTA タスクに適応させる TTA システムである Auffusion を紹介します。
私たちの客観的および主観的な評価は、Auffusion が限られたデータと計算リソースを使用する以前の TTA アプローチを上回っていることを示しています。
さらに、T2I における以前の研究では、きめの細かい詳細やオブジェクトのバインディングなど、クロスモーダル アライメントに対するエンコーダの選択の重大な影響が認識されていますが、以前の TTA の研究では同様の評価が不足していました。
包括的なアブレーション研究と革新的なクロスアテンション マップの視覚化を通じて、TTA におけるテキストと音声の整合性に関する洞察力に富んだ評価を提供します。
私たちの調査結果は、テキストの説明に正確に一致するオーディオを生成する Auffusion の優れた機能を明らかにし、オーディオ スタイルの転送、修復、その他の操作などのいくつかの関連タスクでさらに実証されました。
私たちの実装とデモは https://auffusion.github.io で入手できます。

要約(オリジナル)

Recent advancements in diffusion models and large language models (LLMs) have significantly propelled the field of AIGC. Text-to-Audio (TTA), a burgeoning AIGC application designed to generate audio from natural language prompts, is attracting increasing attention. However, existing TTA studies often struggle with generation quality and text-audio alignment, especially for complex textual inputs. Drawing inspiration from state-of-the-art Text-to-Image (T2I) diffusion models, we introduce Auffusion, a TTA system adapting T2I model frameworks to TTA task, by effectively leveraging their inherent generative strengths and precise cross-modal alignment. Our objective and subjective evaluations demonstrate that Auffusion surpasses previous TTA approaches using limited data and computational resource. Furthermore, previous studies in T2I recognizes the significant impact of encoder choice on cross-modal alignment, like fine-grained details and object bindings, while similar evaluation is lacking in prior TTA works. Through comprehensive ablation studies and innovative cross-attention map visualizations, we provide insightful assessments of text-audio alignment in TTA. Our findings reveal Auffusion’s superior capability in generating audios that accurately match textual descriptions, which further demonstrated in several related tasks, such as audio style transfer, inpainting and other manipulations. Our implementation and demos are available at https://auffusion.github.io.

arxiv情報

著者 Jinlong Xue,Yayue Deng,Yingming Gao,Ya Li
発行日 2024-01-02 05:42:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク