要約
ディープ ニューラル ネットワークは最近、サウンド生成において画期的な進歩を遂げました。
優れたサンプル品質にもかかわらず、現在のサウンド生成モデルは小規模なデータセットで問題 (オーバーフィッティングなど) に直面し、パフォーマンスが大幅に制限されます。
この論文では、最先端のオーディオ生成モデルである AudioLDM をバックボーンとして、サウンド生成に関する事前トレーニングの利点を調査する最初の試みを行います。
私たちの調査では、特にデータ不足のシナリオにおいて、事前トレーニングされた AudioLDM の利点が実証されています。
さらに、音響生成システムのベースラインと評価プロトコルには、さまざまな研究を直接比較できるほど一貫性がありません。
音声生成タスクのさらなる研究を促進することを目的として、頻繁に使用されるさまざまなデータセットで音声生成タスクのベンチマークを行います。
転移学習とベンチマークに関する私たちの結果が、条件付きサウンド生成に関するさらなる研究の参考となることを願っています。
要約(オリジナル)
Deep neural networks have recently achieved breakthroughs in sound generation. Despite the outstanding sample quality, current sound generation models face issues on small-scale datasets (e.g., overfitting), significantly limiting performance. In this paper, we make the first attempt to investigate the benefits of pre-training on sound generation with AudioLDM, the cutting-edge model for audio generation, as the backbone. Our study demonstrates the advantages of the pre-trained AudioLDM, especially in data-scarcity scenarios. In addition, the baselines and evaluation protocol for sound generation systems are not consistent enough to compare different studies directly. Aiming to facilitate further study on sound generation tasks, we benchmark the sound generation task on various frequently-used datasets. We hope our results on transfer learning and benchmarks can provide references for further research on conditional sound generation.
arxiv情報
著者 | Yi Yuan,Haohe Liu,Jinhua Liang,Xubo Liu,Mark D. Plumbley,Wenwu Wang |
発行日 | 2024-07-29 15:29:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google