3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

要約

音声発話内の相関関係のない情報を解きほぐすことは、音声コミュニティ内での重要な研究テーマです。
音声関連のさまざまなタスクは、他の相関関係のない情報の影響を最小限に抑えながら、異なる音声表現を抽出することに重点を置いています。
音声表現のもつれ解きの研究を促進するために、大規模な音声コーパスを紹介します。
3D スピーカーには 10,000 人を超えるスピーカーが含まれており、各スピーカーは異なる距離にある複数のデバイスによって同時に録音され、一部のスピーカーは複数の方言を話しています。
多次元オーディオ データの制御された組み合わせにより、音声表現のもつれを多様に組み合わせたマトリックスが生成され、それによってもつれを解くための興味深い方法が開発されます。
3D スピーカーのマルチドメインの性質により、大規模なユニバーサル音声モデルの評価や、ドメイン外学習や自己教師あり学習の実験方法にも適したリソースになります。
https://3dspeaker.github.io/

要約(オリジナル)

Disentangling uncorrelated information in speech utterances is a crucial research topic within speech community. Different speech-related tasks focus on extracting distinct speech representations while minimizing the affects of other uncorrelated information. We present a large-scale speech corpus to facilitate the research of speech representation disentanglement. 3D-Speaker contains over 10,000 speakers, each of whom are simultaneously recorded by multiple Devices, locating at different Distances, and some speakers are speaking multiple Dialects. The controlled combinations of multi-dimensional audio data yield a matrix of a diverse blend of speech representation entanglement, thereby motivating intriguing methods to untangle them. The multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate large universal speech models and experiment methods of out-of-domain learning and self-supervised learning. https://3dspeaker.github.io/

arxiv情報

著者 Siqi Zheng,Luyao Cheng,Yafeng Chen,Hui Wang,Qian Chen
発行日 2023-06-27 10:09:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク