EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels

要約

テキスト読み上げ技術の採用の増加により、会話の文脈や感情的な調子に適応する自然で感情的な音声に対する需要が高まっています。
このニーズは、ビデオ ゲーム、テレビ番組、グラフィック ノベルなどのインタラクティブな物語主導のシステムに特に関係します。
このニーズに対処するために、動的で表現力豊かな言語によるインタラクティブな体験を強化するように設計された、ラベル付き発話を含む高品質なイギリス英語音声のデータセットである Emotive Narrative Storytting (EMNS) コーパスを紹介します。
高品質のクリーンなオーディオ録音と自然言語説明のペアをトランスクリプトと組み合わせ、単語の強調、表現力、感情ラベルなどの機能についてユーザーがレビューおよび自己報告したラベルを提供します。
EMNS は、より自然で表現力豊かな音声合成技術を支援する高品質でクリーンな録音を提供することで既存のデータセットを改善し、インタラクティブなナラティブ主導のエクスペリエンスを実現します。
さらに、リモートでスケーラブルなデータ収集システムを研究コミュニティにリリースします。

要約(オリジナル)

The increasing adoption of text-to-speech technologies has led to a growing demand for natural and emotive voices that adapt to a conversation’s context and emotional tone. This need is particularly relevant for interactive narrative-driven systems such as video games, TV shows, and graphic novels. To address this need, we present the Emotive Narrative Storytelling (EMNS) corpus, a dataset of high-quality British English speech with labelled utterances designed to enhance interactive experiences with dynamic and expressive language. We provide high-quality clean audio recordings and natural language description pairs with transcripts and user-reviewed and self-reported labels for features such as word emphasis, expressiveness, and emotion labels. EMNS improves on existing datasets by providing higher quality and clean recording to aid more natural and expressive speech synthesis techniques for interactive narrative-driven experiences. Additionally, we release our remote and scalable data collection system to the research community.

arxiv情報

著者 Kari Ali Noriy,Xiaosong Yang,Jian Jun Zhang
発行日 2023-05-22 15:32:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.MM パーマリンク