DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided Speaker Embedding

要約

最近の研究では、視覚入力のみから音声を再構成するビデオ音声合成において、目覚ましい結果が実証されています。
ただし、これまでの研究では、モデルが適切な音声で正しい内容を推測するための十分なガイダンスが不足していたため、音声を正確に合成するのに苦労していました。
この問題を解決するために、彼らは参考聴覚情報から話し方のガイダンスとして追加のスピーカーを埋め込むことを採用しました。
それにもかかわらず、特に推論時間中は、対応するビデオ入力からオーディオ情報を常に取得できるとは限りません。
この論文では、自己教師付き事前トレーニング モデルとプロンプト チューニング技術を使用した、新しい視覚ガイド付きスピーカー埋め込み抽出器を紹介します。
そうすることで、入力された視覚情報のみから豊富な話者埋め込み情報を生成することができ、推論時間中に追加の音声情報は必要ありません。
抽出された視覚誘導スピーカー埋め込み表現を使用して、これらのスピーカー埋め込みと入力ビデオから抽出された視覚表現を条件とする、拡散ベースのビデオ音声合成モデル、いわゆる DiffV2S をさらに開発します。
提案された DiffV2S は、入力ビデオ フレームに含まれる音素の詳細を維持するだけでなく、複数の話者の話者 ID がすべて保存された非常に明瞭なメル スペクトログラムも作成します。
私たちの実験結果は、DiffV2S が以前のビデオ音声合成技術と比較して最先端のパフォーマンスを達成していることを示しています。

要約(オリジナル)

Recent research has demonstrated impressive results in video-to-speech synthesis which involves reconstructing speech solely from visual input. However, previous works have struggled to accurately synthesize speech due to a lack of sufficient guidance for the model to infer the correct content with the appropriate sound. To resolve the issue, they have adopted an extra speaker embedding as a speaking style guidance from a reference auditory information. Nevertheless, it is not always possible to obtain the audio information from the corresponding video input, especially during the inference time. In this paper, we present a novel vision-guided speaker embedding extractor using a self-supervised pre-trained model and prompt tuning technique. In doing so, the rich speaker embedding information can be produced solely from input visual information, and the extra audio information is not necessary during the inference time. Using the extracted vision-guided speaker embedding representations, we further develop a diffusion-based video-to-speech synthesis model, so called DiffV2S, conditioned on those speaker embeddings and the visual representation extracted from the input video. The proposed DiffV2S not only maintains phoneme details contained in the input video frames, but also creates a highly intelligible mel-spectrogram in which the speaker identities of the multiple speakers are all preserved. Our experimental results show that DiffV2S achieves the state-of-the-art performance compared to the previous video-to-speech synthesis technique.

arxiv情報

著者 Jeongsoo Choi,Joanna Hong,Yong Man Ro
発行日 2023-08-15 14:07:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS パーマリンク