Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech

要約

FEIM-TTS は、顔画像に合わせて感情の強さによって調整され、感情表現豊かな音声を合成する革新的なゼロショット テキスト読み上げ (TTS) モデルです。
深層学習を活用する FEIM-TTS は、ラベル付きデータセットに依存せずに顔の合図を解釈し、感情のニュアンスを調整することで、従来の TTS システムを超越します。
まばらなオーディオビジュアル感情データに対処するために、モデルは LRS3、CREMA-D、および MELD データセットを使用してトレーニングされ、その適応性が実証されています。
FEIM-TTS は、高品質で話者に依存しない音声を生成する独自の機能を備えているため、仮想キャラクターに適応可能な音声を作成するのに適しています。
さらに、FEIM-TTS は、視覚障害のある人や見るのが難しい人にとってのアクセシビリティを大幅に強化します。
感情的なニュアンスを TTS に統合することで、私たちのモデルはウェブコミックのダイナミックで魅力的な聴覚体験を可能にし、視覚障害のあるユーザーがこれらの物語をより完全に楽しめるようにします。
包括的な評価により、感情と強度を調整し、感情的な音声合成とアクセシビリティを向上させる能力に優れていることが証明されています。
サンプルは https://feim-tts.github.io/ から入手できます。

要約(オリジナル)

We propose FEIM-TTS, an innovative zero-shot text-to-speech (TTS) model that synthesizes emotionally expressive speech, aligned with facial images and modulated by emotion intensity. Leveraging deep learning, FEIM-TTS transcends traditional TTS systems by interpreting facial cues and adjusting to emotional nuances without dependence on labeled datasets. To address sparse audio-visual-emotional data, the model is trained using LRS3, CREMA-D, and MELD datasets, demonstrating its adaptability. FEIM-TTS’s unique capability to produce high-quality, speaker-agnostic speech makes it suitable for creating adaptable voices for virtual characters. Moreover, FEIM-TTS significantly enhances accessibility for individuals with visual impairments or those who have trouble seeing. By integrating emotional nuances into TTS, our model enables dynamic and engaging auditory experiences for webcomics, allowing visually impaired users to enjoy these narratives more fully. Comprehensive evaluation evidences its proficiency in modulating emotion and intensity, advancing emotional speech synthesis and accessibility. Samples are available at: https://feim-tts.github.io/.

arxiv情報

著者 Yunji Chu,Yunseob Shim,Unsang Park
発行日 2024-09-24 16:01:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク