VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via Speech-Visage Feature Selection

要約

この作品の目標は、静かに話す顔のビデオからスピーチを再構築することです。
最近の研究では、静かに話す顔のビデオから音声を合成する際の印象的なパフォーマンスが示されています。
ただし、彼らは、ビデオと音声の合成に課題を課す、さまざまなスピーカーのアイデンティティ特性の変化について明確に考慮していません。これは、見えないスピーカーの設定ではより重要になります。
以前の方法とは異なり、私たちのアプローチは、特定のサイレントトーキングフェイスビデオからスピーチコンテンツと顔スタイルを分離することです。
2つの表現のモデリングに独立して焦点を合わせるようにモデルをガイドすることにより、見えない被写体の入力ビデオが与えられた場合でも、モデルから高い了解度の音声を取得できます。
この目的のために、入力ビデオの視覚的特徴から音声コンテンツと話者のアイデンティティを分離する音声ビサージュ選択モジュールを紹介します。
解きほぐされた表現は、音声コンテンツを維持しながら、顔スタイルをコーティングすることによって音声を生成する顔スタイルベースのシンセサイザーを介して音声を合成するために共同で組み込まれます。
したがって、提案されたフレームワークは、目に見えない主題の静かな話し顔のビデオが与えられた場合でも、適切なコンテンツを含む音声を合成するという利点をもたらします。
GRID、TCD-TIMITボランティア、およびLRWデータセットで提案されたフレームワークの有効性を検証します。
合成音声は補足資料で聞くことができます。

要約(オリジナル)

The goal of this work is to reconstruct speech from a silent talking face video. Recent studies have shown impressive performance on synthesizing speech from silent talking face videos. However, they have not explicitly considered on varying identity characteristics of different speakers, which place a challenge in the video-to-speech synthesis, and this becomes more critical in unseen-speaker settings. Distinct from the previous methods, our approach is to separate the speech content and the visage-style from a given silent talking face video. By guiding the model to independently focus on modeling the two representations, we can obtain the speech of high intelligibility from the model even when the input video of an unseen subject is given. To this end, we introduce speech-visage selection module that separates the speech content and the speaker identity from the visual features of the input video. The disentangled representations are jointly incorporated to synthesize speech through visage-style based synthesizer which generates speech by coating the visage-styles while maintaining the speech content. Thus, the proposed framework brings the advantage of synthesizing the speech containing the right content even when the silent talking face video of an unseen subject is given. We validate the effectiveness of the proposed framework on the GRID, TCD-TIMIT volunteer, and LRW datasets. The synthesized speech can be heard in supplementary materials.

arxiv情報

著者 Joanna Hong,Minsu Kim,Yong Man Ro
発行日 2022-06-15 11:29:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS パーマリンク