要約
言語教育のためのソーシャルロボットの使用が調査されていますが、言語教育ロボットのためのタスク固有の統合された声に関する作業は限られています。
言語が口頭での仕事であることを考えると、このギャップは、言語教育タスクに対するロボットの有効性に深刻な結果をもたらす可能性があります。
私たちは、3つの貢献を通じてL2の教育ロボットの声のこの欠如に対処します。1。軽量で表現力豊かなロボットの声の必要性に対処します。
抹茶TTSの微調整バージョンを使用して、絵文字を使用して、時間の経過とともにさまざまな表現力を示す表現力のある音声を作成します。
音声は、限られた計算リソースでリアルタイムで実行できます。
ケーススタディを通じて、この声はより表現力豊かで、社会的に適切であり、ストーリーテリングなどの長期にわたる表現力豊かなスピーチに適していることがわかりました。
2.ロボットの声を物理的および社会的な周囲の環境に適応させる方法を探り、さまざまな場所に声を展開します。
ノイズの多いエネルギー環境でピッチとピッチレートの増加により、ロボットの声がより適切に見えるようになり、現在の環境をよりよく認識するようになることがわかりました。
3.これらのリスナーにとって困難な母音の既知の言語特性を使用して、L2リスナーの明確さを改善した英語TTSシステムを作成します。
データ駆動型の知覚ベースのアプローチを使用して、L2スピーカーが英語の最小緊張(長い)およびLAX(短い)母音で挑戦的な単語を解釈する方法を理解するために理解しました。
母音の持続時間は、L2リスナーの認識に強く影響し、LAX母音を変更しながら緊張した母音に延長を適用する抹茶TTの「L2クラリティモード」を作成したことがわかりました。
私たちのクラリティモードは、これらの挑戦的な時制/ゆるい最小ペアの転写エラーを減らしながら、ベースの抹茶TTよりも敬意を払い、わかりやすく、励みになっていることがわかりました。
要約(オリジナル)
While the use of social robots for language teaching has been explored, there remains limited work on a task-specific synthesized voices for language teaching robots. Given that language is a verbal task, this gap may have severe consequences for the effectiveness of robots for language teaching tasks. We address this lack of L2 teaching robot voices through three contributions: 1. We address the need for a lightweight and expressive robot voice. Using a fine-tuned version of Matcha-TTS, we use emoji prompting to create an expressive voice that shows a range of expressivity over time. The voice can run in real time with limited compute resources. Through case studies, we found this voice more expressive, socially appropriate, and suitable for long periods of expressive speech, such as storytelling. 2. We explore how to adapt a robot’s voice to physical and social ambient environments to deploy our voices in various locations. We found that increasing pitch and pitch rate in noisy and high-energy environments makes the robot’s voice appear more appropriate and makes it seem more aware of its current environment. 3. We create an English TTS system with improved clarity for L2 listeners using known linguistic properties of vowels that are difficult for these listeners. We used a data-driven, perception-based approach to understand how L2 speakers use duration cues to interpret challenging words with minimal tense (long) and lax (short) vowels in English. We found that the duration of vowels strongly influences the perception for L2 listeners and created an ‘L2 clarity mode’ for Matcha-TTS that applies a lengthening to tense vowels while leaving lax vowels unchanged. Our clarity mode was found to be more respectful, intelligible, and encouraging than base Matcha-TTS while reducing transcription errors in these challenging tense/lax minimal pairs.
arxiv情報
著者 | Paige Tuttösí |
発行日 | 2025-06-18 03:23:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google