DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech

要約

個々の発話のコレクションである現在のテキスト読み上げ (TTS) データセットの大部分には、会話の側面がほとんど含まれていません。
このホワイト ペーパーでは、会話型 TTS 用に設計された高品質の会話型音声データセットである DailyTalk を紹介します。
オープンドメインの対話データセット DailyDialog から 2,541 の対話をサンプリング、変更、および記録し、注釈付きの属性を継承しました。
データセットに加えて、以前の作業をベースラインとして拡張します。非自己回帰 TTS は、対話の履歴情報に基づいて調整されます。
一般的なメトリクスと新しいメトリクスの両方を使用したベースライン実験から、DailyTalk が一般的な TTS データセットとして使用できること、さらに、ベースラインが DailyTalk からのコンテキスト情報を表すことができることを示しています。
DailyTalk データセットとベースライン コードは、CC-BY-SA 4.0 ライセンスで教育機関向けに自由に利用できます。

要約(オリジナル)

The majority of current Text-to-Speech (TTS) datasets, which are collections of individual utterances, contain few conversational aspects. In this paper, we introduce DailyTalk, a high-quality conversational speech dataset designed for conversational TTS. We sampled, modified, and recorded 2,541 dialogues from the open-domain dialogue dataset DailyDialog inheriting its annotated attributes. On top of our dataset, we extend prior work as our baseline, where a non-autoregressive TTS is conditioned on historical information in a dialogue. From the baseline experiment with both general and our novel metrics, we show that DailyTalk can be used as a general TTS dataset, and more than that, our baseline can represent contextual information from DailyTalk. The DailyTalk dataset and baseline code are freely available for academic use with CC-BY-SA 4.0 license.

arxiv情報

著者 Keon Lee,Kyumin Park,Daeyoung Kim
発行日 2023-03-13 02:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS パーマリンク