要約
高品質でマルチタスクな歌唱データセットの不足は、多様な制御可能でパーソナライズされた歌唱タスクの開発を大きく妨げている。既存の歌唱データセットは、低品質、言語や歌手の多様性の制限、マルチテクニック情報や現実的な楽譜の欠如、タスク適合性の低さなどに悩まされている。これらの問題に対処するため、我々はGTSingerを発表する。GTSingerは、あらゆる歌唱タスクのために設計された、大規模なグローバル、マルチテクニック、フリーで使用可能な、現実的な楽譜を持つ高品質な歌唱コーパスであり、そのベンチマークも提供する。特に、(1)80.59時間の高品質な歌声を収集し、最大の録音歌唱データセットを形成する、(2)広く話されている9つの言語にわたる20人のプロ歌手が、多様な音色とスタイルを提供する、(3)一般的に使用される6つの歌唱テクニックの制御された比較と音素レベルのアノテーションを提供し、テクニックのモデリングと制御を支援する、(4)GTSingerは現実的な楽譜を提供し、実世界の作曲を支援する、(5)歌声は、手動の音素-音声アライメント、グローバルなスタイルラベル、16.様々な歌唱タスクのための16時間のペア音声。さらに、GTSingerの利用を容易にするために、4つのベンチマーク実験を行っている:テクニック制御可能な歌声合成、テクニック認識、スタイル転送、音声から歌声への変換。コーパスとデモはhttp://aaronz345.github.io/GTSingerDemo/。データセットと、データを処理しベンチマークを実施するためのコードは、https://huggingface.co/datasets/GTSinger/GTSinger と https://github.com/AaronZ345/GTSinger で提供しています。
要約(オリジナル)
The scarcity of high-quality and multi-task singing datasets significantly hinders the development of diverse controllable and personalized singing tasks, as existing singing datasets suffer from low quality, limited diversity of languages and singers, absence of multi-technique information and realistic music scores, and poor task suitability. To tackle these problems, we present GTSinger, a large global, multi-technique, free-to-use, high-quality singing corpus with realistic music scores, designed for all singing tasks, along with its benchmarks. Particularly, (1) we collect 80.59 hours of high-quality singing voices, forming the largest recorded singing dataset; (2) 20 professional singers across nine widely spoken languages offer diverse timbres and styles; (3) we provide controlled comparison and phoneme-level annotations of six commonly used singing techniques, helping technique modeling and control; (4) GTSinger offers realistic music scores, assisting real-world musical composition; (5) singing voices are accompanied by manual phoneme-to-audio alignments, global style labels, and 16.16 hours of paired speech for various singing tasks. Moreover, to facilitate the use of GTSinger, we conduct four benchmark experiments: technique-controllable singing voice synthesis, technique recognition, style transfer, and speech-to-singing conversion. The corpus and demos can be found at http://aaronz345.github.io/GTSingerDemo/. We provide the dataset and the code for processing data and conducting benchmarks at https://huggingface.co/datasets/GTSinger/GTSinger and https://github.com/AaronZ345/GTSinger.
arxiv情報
著者 | Yu Zhang,Changhao Pan,Wenxiang Guo,Ruiqi Li,Zhiyuan Zhu,Jialei Wang,Wenhao Xu,Jingyu Lu,Zhiqing Hong,Chuxin Wang,LiChao Zhang,Jinzheng He,Ziyue Jiang,Yuxin Chen,Chen Yang,Jiecheng Zhou,Xinyu Cheng,Zhou Zhao |
発行日 | 2025-02-04 11:55:53+00:00 |
arxivサイト | arxiv_id(pdf) |