Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model

要約

最近の大規模言語モデル (LLM) の巨大なスケールにより、命令ベースおよび思考連鎖ベースの微調整など、多くの興味深い特性が可能になり、多くの自然言語処理におけるゼロショットおよび少数ショットのパフォーマンスが大幅に向上しました。
(NLP) タスク。
このような成功に触発されて、私たちは、テキストからオーディオへの (TTA) 生成、つまりテキストの説明からオーディオを生成することを目的としたタスクのテキスト エンコーダーとして、このような命令調整された LLM Flan-T5 を採用しました。
TTA に関する以前の研究では、テキストとオーディオの統合エンコーダーを事前にトレーニングするか、T5 などの非命令調整モデルを使用していました。
その結果、潜在拡散モデル (LDM) ベースのアプローチである TANGO は、63 倍小さいデータセットで LDM をトレーニングし、
テキストエンコーダがフリーズしました。
この改善は、従来の方法ではランダムなミックスが行われていたのに対し、トレーニング セットの拡張に音圧レベルに基づくサウンド ミキシングを採用したことにも起因している可能性があります。

要約(オリジナル)

The immense scale of the recent large language models (LLM) allows many interesting properties, such as, instruction- and chain-of-thought-based fine-tuning, that has significantly improved zero- and few-shot performance in many natural language processing (NLP) tasks. Inspired by such successes, we adopt such an instruction-tuned LLM Flan-T5 as the text encoder for text-to-audio (TTA) generation — a task where the goal is to generate an audio from its textual description. The prior works on TTA either pre-trained a joint text-audio encoder or used a non-instruction-tuned model, such as, T5. Consequently, our latent diffusion model (LDM)-based approach TANGO outperforms the state-of-the-art AudioLDM on most metrics and stays comparable on the rest on AudioCaps test set, despite training the LDM on a 63 times smaller dataset and keeping the text encoder frozen. This improvement might also be attributed to the adoption of audio pressure level-based sound mixing for training set augmentation, whereas the prior methods take a random mix.

arxiv情報

著者 Deepanway Ghosal,Navonil Majumder,Ambuj Mehrish,Soujanya Poria
発行日 2023-05-29 12:09:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク