要約
自動ボイスオーバー (AVO) の目標は、指定されたテキスト スクリプトに基づいてサイレント ビデオと同期して音声を生成することです。
テキスト音声合成 (TTS) に基づいて構築された最近の AVO フレームワークは、目覚ましい結果を示しています。
ただし、音響特徴の再構成という現在の AVO 学習目標では、モーダル間アライメント学習に間接的な監視が必要となるため、同期パフォーマンスと合成音声の品質が制限されます。
この目的を達成するために、我々は、自己教師あり離散音声単位予測の学習目標を活用した新しい AVO 手法を提案します。この手法は、アライメント学習に対するより直接的な教師を提供するだけでなく、テキストビデオのコンテキストと音響特徴の間の不一致も軽減します。
実験結果は、提案した方法が客観的評価と主観的評価の両方でベースラインを上回る優れた口唇と音声の同期と高い音声品質を達成することを示しています。
コードと音声のサンプルは公開されています。
要約(オリジナル)
The goal of Automatic Voice Over (AVO) is to generate speech in sync with a silent video given its text script. Recent AVO frameworks built upon text-to-speech synthesis (TTS) have shown impressive results. However, the current AVO learning objective of acoustic feature reconstruction brings in indirect supervision for inter-modal alignment learning, thus limiting the synchronization performance and synthetic speech quality. To this end, we propose a novel AVO method leveraging the learning objective of self-supervised discrete speech unit prediction, which not only provides more direct supervision for the alignment learning, but also alleviates the mismatch between the text-video context and acoustic features. Experimental results show that our proposed method achieves remarkable lip-speech synchronization and high speech quality by outperforming baselines in both objective and subjective evaluations. Code and speech samples are publicly available.
arxiv情報
著者 | Junchen Lu,Berrak Sisman,Mingyang Zhang,Haizhou Li |
発行日 | 2023-06-29 15:02:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google