GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks

要約

高品質でマルチタスクの歌唱データセットの不足は、既存の歌唱データセットの品質の低さ、言語と歌手の多様性の制限、複数のテクニック情報と現実的な楽譜の欠如に悩まされているため、制御可能でパーソナライズされた多様な歌唱タスクの開発を著しく妨げています。
、タスクの適合性が低い。
これらの問題に取り組むために、私たちは GTSinger を紹介します。GTSinger は、すべての歌唱タスク向けに設計された、リアルな楽譜を備えた、大規模でグローバルでマルチテクニックで、無料で使用できる高品質の歌唱コーパスとそのベンチマークです。
特に、(1) 80.59 時間の高品質の歌声を収集し、最大の録音済み歌唱データセットを形成します。
(2) 広く話されている 9 つの言語にまたがる 20 人のプロの歌手が、多様な音色とスタイルを提供します。
(3) 一般的に使用される 6 つの歌唱テクニックについて、制御された比較と音素レベルの注釈を提供し、テクニックのモデリングと制御を支援します。
(4) GTSinger は現実的な音楽スコアを提供し、現実世界の音楽作曲を支援します。
(5) 歌声には、手動による音素とオーディオの調整、グローバル スタイルのラベル、およびさまざまな歌唱タスクのための 16.16 時間のペア音声が伴います。
さらに、GTSinger の利用を容易にするために、テクニック制御可能な歌声合成、テクニック認識、スタイル転送、音声から歌唱への変換の 4 つのベンチマーク実験を実施しました。
コーパスとデモは http://gtsinger.github.io にあります。
データを処理しベンチマークを実施するためのデータセットとコードは、https://huggingface.co/datasets/GTSinger/GTSinger および https://github.com/GTSinger/GTSinger で提供されています。

要約(オリジナル)

The scarcity of high-quality and multi-task singing datasets significantly hinders the development of diverse controllable and personalized singing tasks, as existing singing datasets suffer from low quality, limited diversity of languages and singers, absence of multi-technique information and realistic music scores, and poor task suitability. To tackle these problems, we present GTSinger, a large global, multi-technique, free-to-use, high-quality singing corpus with realistic music scores, designed for all singing tasks, along with its benchmarks. Particularly, (1) we collect 80.59 hours of high-quality singing voices, forming the largest recorded singing dataset; (2) 20 professional singers across nine widely spoken languages offer diverse timbres and styles; (3) we provide controlled comparison and phoneme-level annotations of six commonly used singing techniques, helping technique modeling and control; (4) GTSinger offers realistic music scores, assisting real-world musical composition; (5) singing voices are accompanied by manual phoneme-to-audio alignments, global style labels, and 16.16 hours of paired speech for various singing tasks. Moreover, to facilitate the use of GTSinger, we conduct four benchmark experiments: technique-controllable singing voice synthesis, technique recognition, style transfer, and speech-to-singing conversion. The corpus and demos can be found at http://gtsinger.github.io. We provide the dataset and the code for processing data and conducting benchmarks at https://huggingface.co/datasets/GTSinger/GTSinger and https://github.com/GTSinger/GTSinger.

arxiv情報

著者 Yu Zhang,Changhao Pan,Wenxiang Guo,Ruiqi Li,Zhiyuan Zhu,Jialei Wang,Wenhao Xu,Jingyu Lu,Zhiqing Hong,Chuxin Wang,LiChao Zhang,Jinzheng He,Ziyue Jiang,Yuxin Chen,Chen Yang,Jiecheng Zhou,Xinyu Cheng,Zhou Zhao
発行日 2024-09-26 12:07:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク