Taming Data and Transformers for Audio Generation

要約

環境音の生成は、データ不足とキャプションの品質が不十分なことが多いため、困難なタスクであり、このタスクに大規模な生成モデルを採用することが困難です。
この作業では、2 つの新しいモデルを導入することでこの問題に取り組みます。
まず、高品質で効率的な自動音声キャプション モデルである AutoCap を提案します。
AutoCap は、コンパクトなオーディオ表現を使用し、オーディオ メタデータを活用することにより、キャプションの品質を大幅に向上させ、CIDEr スコア 83.2 に達し、4 倍の推論速度で利用可能な最高のキャプション モデルから 3.2% の向上を記録しました。
2 番目に、1.25B パラメータまでスケールアップできるスケーラブルなトランスベースのオーディオ生成アーキテクチャである GenAu を提案します。
AutoCap を使用して既存のオーディオ データセットからキャプション クリップを生成し、合成キャプションによるデータ スケーリングとモデル サイズのスケーリングの利点を示します。
同様のサイズとデータスケールでトレーニングされた最先端のオーディオジェネレーターと比較すると、GenAu は FAD スコアで 4.7%、IS で 22.7%、CLAP スコアで 13.5% の大幅な改善を達成しており、生成されたオーディオの品質が大幅に向上していることを示しています。
過去の作品と比べて。
さらに、オーディオ データセットを収集するための効率的でスケーラブルなパイプラインを提案します。これにより、5,700 万のアンビエント オーディオ クリップをコンパイルして、既存のデータセットの 90 倍の規模で利用可能な最大のオーディオ テキスト データセットである AutoReCap-XL を形成できます。
コード、モデル チェックポイント、データセットは公開されています。

要約(オリジナル)

Generating ambient sounds is a challenging task due to data scarcity and often insufficient caption quality, making it difficult to employ large-scale generative models for the task. In this work, we tackle this problem by introducing two new models. First, we propose AutoCap, a high-quality and efficient automatic audio captioning model. By using a compact audio representation and leveraging audio metadata, AutoCap substantially enhances caption quality, reaching a CIDEr score of 83.2, marking a 3.2% improvement from the best available captioning model at four times faster inference speed. Second, we propose GenAu, a scalable transformer-based audio generation architecture that we scale up to 1.25B parameters. Using AutoCap to generate caption clips from existing audio datasets, we demonstrate the benefits of data scaling with synthetic captions as well as model size scaling. When compared to state-of-the-art audio generators trained at similar size and data scale, GenAu obtains significant improvements of 4.7% in FAD score, 22.7% in IS, and 13.5% in CLAP score, indicating significantly improved quality of generated audio compared to previous works. Moreover, we propose an efficient and scalable pipeline for collecting audio datasets, enabling us to compile 57M ambient audio clips, forming AutoReCap-XL, the largest available audio-text dataset, at 90 times the scale of existing ones. Our code, model checkpoints, and dataset are publicly available.

arxiv情報

著者 Moayed Haji-Ali,Willi Menapace,Aliaksandr Siarohin,Guha Balakrishnan,Sergey Tulyakov,Vicente Ordonez
発行日 2024-10-24 17:56:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS パーマリンク