要約
アンビエントサウンドジェネレーターのスケーラビリティは、データ不足、キャプションの品質が不十分であり、モデルアーキテクチャの限られたスケーラビリティによって妨げられます。
この作業は、データとモデルのスケーリングの両方を進めることにより、これらの課題に対処します。
まず、アンビエントオーディオ生成に合わせて調整された効率的でスケーラブルなデータセットコレクションパイプラインを提案し、4,700万を超えるクリップを備えた最大の周囲オーディオテキストデータセットであるAutORECAP-XLをもたらします。
高品質のテキストアノテーションを提供するために、高品質の自動オーディオキャプションモデルであるAutoCAPを提案します。
Q-Formerモジュールを採用し、オーディオメタデータを活用することにより、AutoCAPはキャプション品質を大幅に向上させ、以前のキャプションモデルで$ 3.2 \%$のサイダースコアに達します。
最後に、最大1.25Bのパラメーターをスケーリングするスケーラブルな変圧器ベースのオーディオ生成アーキテクチャであるGenaUを提案します。
合成キャプションとモデルサイズのスケーリングを使用したデータスケーリングの利点を示します。
同様のサイズとデータスケールでトレーニングされたベースラインオーディオジェネレーターと比較した場合、GenauはFADスコアで4.7 \%$ $ 4.7 \%$、11.1 \%$ in、$ 13.5 \%$の大幅な改善を獲得します。
コード、モデルチェックポイント、およびデータセットは公開されています。
要約(オリジナル)
The scalability of ambient sound generators is hindered by data scarcity, insufficient caption quality, and limited scalability in model architecture. This work addresses these challenges by advancing both data and model scaling. First, we propose an efficient and scalable dataset collection pipeline tailored for ambient audio generation, resulting in AutoReCap-XL, the largest ambient audio-text dataset with over 47 million clips. To provide high-quality textual annotations, we propose AutoCap, a high-quality automatic audio captioning model. By adopting a Q-Former module and leveraging audio metadata, AutoCap substantially enhances caption quality, reaching a CIDEr score of $83.2$, a $3.2\%$ improvement over previous captioning models. Finally, we propose GenAu, a scalable transformer-based audio generation architecture that we scale up to 1.25B parameters. We demonstrate its benefits from data scaling with synthetic captions as well as model size scaling. When compared to baseline audio generators trained at similar size and data scale, GenAu obtains significant improvements of $4.7\%$ in FAD score, $11.1\%$ in IS, and $13.5\%$ in CLAP score. Our code, model checkpoints, and dataset are publicly available.
arxiv情報
著者 | Moayed Haji-Ali,Willi Menapace,Aliaksandr Siarohin,Guha Balakrishnan,Vicente Ordonez |
発行日 | 2025-04-16 17:40:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google