EmojiVoice: Towards long-term controllable expressivity in robot speech

要約

人間は、リスナーとの関わりを維持するために長期間話すときに表現力を変えます。
ソーシャルロボットは「表現力豊かな」喜びの声で展開される傾向がありますが、人間のスピーチに見られるこの長期的なバリエーションが欠けています。
ファンデーションモデルのテキストからスピーチシステムは、人間のスピーチにおける表現力を模倣し始めていますが、ロボットにオフラインで展開することは困難です。
ソーシャルロボット奏者がソーシャルロボットに関する一時的に変動する表現力豊かなスピーチを構築できるようにする、無料のカスタマイズ可能なテキストからスピーチ(TTS)ツールキットであるemojivoiceを紹介します。
絵文字を導入して、位相レベルで表現力の細かい制御を可能にし、軽量の抹茶TTTSバックボーンを使用してスピーチをリアルタイムで生成します。
(1)ロボットアシスタントとのスクリプト化された会話、(2)ストーリーテリングロボット、および(3)自律的なスピーチ間インタラクティブエージェント。
さまざまな絵文字を使用することで、ストーリーテリングタスクで長期にわたってスピーチの認識と表現力が向上することがわかりましたが、アシスタントユースケースでは表現力のある声が好まれていませんでした。

要約(オリジナル)

Humans vary their expressivity when speaking for extended periods to maintain engagement with their listener. Although social robots tend to be deployed with “expressive” joyful voices, they lack this long-term variation found in human speech. Foundation model text-to-speech systems are beginning to mimic the expressivity in human speech, but they are difficult to deploy offline on robots. We present EmojiVoice, a free, customizable text-to-speech (TTS) toolkit that allows social roboticists to build temporally variable, expressive speech on social robots. We introduce emoji-prompting to allow fine-grained control of expressivity on a phase level and use the lightweight Matcha-TTS backbone to generate speech in real-time. We explore three case studies: (1) a scripted conversation with a robot assistant, (2) a storytelling robot, and (3) an autonomous speech-to-speech interactive agent. We found that using varied emoji prompting improved the perception and expressivity of speech over a long period in a storytelling task, but expressive voice was not preferred in the assistant use case.

arxiv情報

著者 Paige Tuttösí,Shivam Mehta,Zachary Syvenky,Bermet Burkanova,Gustav Eje Henter,Angelica Lim
発行日 2025-06-18 02:49:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO パーマリンク