要約
個々の発話のコレクションである現在のテキスト読み上げ (TTS) データセットの大部分には、会話の側面がほとんど含まれていません。
このホワイト ペーパーでは、会話型 TTS 用に設計された高品質の会話型音声データセットである DailyTalk を紹介します。
オープンドメインの対話データセット DailyDialog から 2,541 の対話をサンプリング、変更、および記録し、注釈付きの属性を継承しました。
データセットに加えて、以前の作業をベースラインとして拡張します。非自己回帰 TTS は、対話の履歴情報に基づいて調整されます。
一般的なメトリクスと新しいメトリクスの両方を使用したベースライン実験から、DailyTalk が一般的な TTS データセットとして使用できること、さらに、ベースラインが DailyTalk からのコンテキスト情報を表すことができることを示しています。
DailyTalk データセットとベースライン コードは、CC-BY-SA 4.0 ライセンスで教育機関向けに自由に利用できます。
要約(オリジナル)
The majority of current Text-to-Speech (TTS) datasets, which are collections of individual utterances, contain few conversational aspects. In this paper, we introduce DailyTalk, a high-quality conversational speech dataset designed for conversational TTS. We sampled, modified, and recorded 2,541 dialogues from the open-domain dialogue dataset DailyDialog inheriting its annotated attributes. On top of our dataset, we extend prior work as our baseline, where a non-autoregressive TTS is conditioned on historical information in a dialogue. From the baseline experiment with both general and our novel metrics, we show that DailyTalk can be used as a general TTS dataset, and more than that, our baseline can represent contextual information from DailyTalk. The DailyTalk dataset and baseline code are freely available for academic use with CC-BY-SA 4.0 license.
arxiv情報
著者 | Keon Lee,Kyumin Park,Daeyoung Kim |
発行日 | 2023-03-13 02:13:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google