TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization


TangoFlux は、5 億 1500 万のパラメーターを備えた効率的な Text-to-Audio (TTA) 生成モデルであり、単一の A40 GPU でわずか 3.7 秒で最大 30 秒の 44.1kHz オーディオを生成できます。
TTA モデルを調整する際の主な課題は、大規模言語モデル (LLM) で利用できる検証可能な報酬やゴールドスタンダードの回答などの構造化されたメカニズムが TTA に欠けているため、好みのペアを作成することが難しいことにあります。
これに対処するために、TTA の調整を強化するために嗜好データを繰り返し生成および最適化する新しいフレームワークである CLAP-Ranked Preference Optimization (CRPO) を提案します。
CRPO を使用して生成されたオーディオ嗜好データセットが既存の代替データセットよりも優れていることを示します。
このフレームワークにより、TangoFlux は客観的ベンチマークと主観的ベンチマークの両方で最先端のパフォーマンスを実現します。
TTA 生成におけるさらなる研究をサポートするために、すべてのコードとモデルをオープンソースにしています。


We introduce TangoFlux, an efficient Text-to-Audio (TTA) generative model with 515M parameters, capable of generating up to 30 seconds of 44.1kHz audio in just 3.7 seconds on a single A40 GPU. A key challenge in aligning TTA models lies in the difficulty of creating preference pairs, as TTA lacks structured mechanisms like verifiable rewards or gold-standard answers available for Large Language Models (LLMs). To address this, we propose CLAP-Ranked Preference Optimization (CRPO), a novel framework that iteratively generates and optimizes preference data to enhance TTA alignment. We demonstrate that the audio preference dataset generated using CRPO outperforms existing alternatives. With this framework, TangoFlux achieves state-of-the-art performance across both objective and subjective benchmarks. We open source all code and models to support further research in TTA generation.


著者 Chia-Yu Hung,Navonil Majumder,Zhifeng Kong,Ambuj Mehrish,Rafael Valle,Bryan Catanzaro,Soujanya Poria
発行日 2024-12-30 16:02:44+00:00
