SpeakEasy: Enhancing Text-to-Speech Interactions for Expressive Content Creation

要約

初心者のコンテンツクリエイターは、多くの場合、ソーシャルメディアビデオの表現力豊かなスピーチを記録する重要な時間を投資します。
テキストからスピーチ(TTS)テクノロジーの最近の進歩は、さまざまな言語やアクセントで非常に現実的なスピーチを生成する可能性がありますが、多くは直感的または過度に粒状のTTSインターフェイスに苦労しています。
ユーザーがスクリプトとともに高レベルのコンテキストを指定できるようにすることにより、TTS生成を簡素化することを提案します。
私たちの魔法使いのシステムは、スピーキーズであり、ユーザーが提供するコンテキストを活用してTTS出力を通知および影響を与え、高レベルのフィードバックで反復的な改良を可能にします。
このアプローチは、2つの8サブジェクトの形成研究によって通知されました。1つはTTSでのコンテンツクリエーターの経験を調べ、もう1つは音声主体からの効果的な戦略に関する説明です。
私たちの評価は、Speakeasyを使用している参加者は、業界の主要なインターフェイスよりも大幅に多くの努力を必要とせずに、個人的な基準に一致するパフォーマンスを生成することに成功したことを示しています。

要約(オリジナル)

Novice content creators often invest significant time recording expressive speech for social media videos. While recent advancements in text-to-speech (TTS) technology can generate highly realistic speech in various languages and accents, many struggle with unintuitive or overly granular TTS interfaces. We propose simplifying TTS generation by allowing users to specify high-level context alongside their script. Our Wizard-of-Oz system, SpeakEasy, leverages user-provided context to inform and influence TTS output, enabling iterative refinement with high-level feedback. This approach was informed by two 8-subject formative studies: one examining content creators’ experiences with TTS, and the other drawing on effective strategies from voice actors. Our evaluation shows that participants using SpeakEasy were more successful in generating performances matching their personal standards, without requiring significantly more effort than leading industry interfaces.

arxiv情報

著者 Stephen Brade,Sam Anderson,Rithesh Kumar,Zeyu Jin,Anh Truong
発行日 2025-04-07 14:13:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG パーマリンク