Taming Data and Transformers for Audio Generation

要約

環境音や環境効果の生成は、データ不足とキャプションの品質が不十分なことが多いため、困難な問題であり、このタスクに大規模な生成モデルを採用することが困難です。
この作業では、2 つの新しいモデルを導入することでこの問題に取り組みます。
まず、高品質で効率的な自動音声キャプション モデルである AutoCap を提案します。
オーディオ モダリティで利用可能なメタデータを活用することで、キャプションの品質を大幅に向上できることを示します。
AutoCap は CIDEr スコア 83.2 に達し、4 倍の推論速度で利用可能な最高のキャプション モデルから 3.2% の改善を記録しました。
次に、AutoCap を使用して既存のデータセットからクリップにキャプションを付け、高品質のキャプションを持つ 761,000 個のオーディオ クリップを取得し、利用可能な最大のオーディオ テキスト データセットを形成します。
次に、GenAu を提案します。これは、1.25B パラメータまでスケールアップし、新しいデータセットでトレーニングする、スケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャです。
最先端のオーディオ ジェネレーターと比較した場合、GenAu は FAD スコアで 15.7%、IS で 22.7%、CLAP スコアで 13.5% という大幅な改善を達成しており、以前の作品と比較して生成されたオーディオの品質が大幅に向上していることを示しています。
これは、データの質が量と同じくらい重要であることが多いことを示しています。
さらに、AutoCap は完全に自動であるため、新しいオーディオ サンプルをトレーニング データセットに追加でき、オーディオ合成のためのさらに大規模な生成モデルのトレーニングが可能になります。

要約(オリジナル)

Generating ambient sounds and effects is a challenging problem due to data scarcity and often insufficient caption quality, making it difficult to employ large-scale generative models for the task. In this work, we tackle the problem by introducing two new models. First, we propose AutoCap, a high-quality and efficient automatic audio captioning model. We show that by leveraging metadata available with the audio modality, we can substantially improve the quality of captions. AutoCap reaches CIDEr score of 83.2, marking a 3.2% improvement from the best available captioning model at four times faster inference speed. We then use AutoCap to caption clips from existing datasets, obtaining 761,000 audio clips with high-quality captions, forming the largest available audio-text dataset. Second, we propose GenAu, a scalable transformer-based audio generation architecture that we scale up to 1.25B parameters and train with our new dataset. When compared to state-of-the-art audio generators, GenAu obtains significant improvements of 15.7% in FAD score, 22.7% in IS, and 13.5% in CLAP score, indicating significantly improved quality of generated audio compared to previous works. This shows that the quality of data is often as important as its quantity. Besides, since AutoCap is fully automatic, new audio samples can be added to the training dataset, unlocking the training of even larger generative models for audio synthesis.

arxiv情報

著者 Moayed Haji-Ali,Willi Menapace,Aliaksandr Siarohin,Guha Balakrishnan,Sergey Tulyakov,Vicente Ordonez
発行日 2024-06-27 17:58:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS パーマリンク