要約
ディープ ニューラル ネットワークは、最近、サウンド生成においてブレークスルーを達成しました。
優れたサンプル品質にもかかわらず、現在のサウンド生成モデルは小規模なデータセットで問題に直面しており (サウンド クラスのオーバーフィッティングやカバレッジの低さなど)、パフォーマンスが大幅に制限されています。
この論文では、オーディオ生成の最先端モデルである AudioLDM をバックボーンとして、サウンド生成に関する事前トレーニングの利点を調査する最初の試みを行います。
私たちの研究は、特にデータ不足のシナリオで、事前トレーニング済みの AudioLDM の利点を示しています。
さらに、サウンド生成システムのベースラインと評価プロトコルは、さまざまな研究を直接比較できるほど一貫していません。
サウンド生成タスクのさらなる研究を促進することを目的として、頻繁に使用されるさまざまなデータセットでサウンド生成タスクのベンチマークを行います。
転移学習とベンチマークに関する私たちの結果が、条件付きサウンド生成に関するさらなる研究の参考になることを願っています。
要約(オリジナル)
Deep neural networks have recently achieved breakthroughs in sound generation. Despite the outstanding sample quality, current sound generation models face issues on small-scale datasets (e.g., overfitting and low coverage of sound classes), significantly limiting performance. In this paper, we make the first attempt to investigate the benefits of pre-training on sound generation with AudioLDM, the cutting-edge model for audio generation, as the backbone. Our study demonstrates the advantages of the pre-trained AudioLDM, especially in data-scarcity scenarios. In addition, the baselines and evaluation protocol for sound generation systems are not consistent enough to compare different studies directly. Aiming to facilitate further study on sound generation tasks, we benchmark the sound generation task on various frequently-used datasets. We hope our results on transfer learning and benchmarks can provide references for further research on conditional sound generation.
arxiv情報
著者 | Yi Yuan,Haohe Liu,Jinhua Liang,Xubo Liu,Mark D. Plumbley,Wenwu Wang |
発行日 | 2023-03-07 12:49:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google