要約
本論文では、映像の音声保存、リップシンクロ翻訳のためのニューラルエンドツーエンドシステムを提案する。このシステムは、複数のコンポーネントモデルを組み合わせて設計されており、ターゲット言語でのオリジナルスピーカーの発話とリップシンクロしながら、音声の強調、音声特性、オリジナルスピーカーの顔映像を維持したビデオを作成する。パイプラインは、強調度検出を含む自動音声認識から始まり、翻訳モデルが続きます。翻訳されたテキストは、Text-to-Speechモデルによって合成され、元の文からマッピングされた元の強調を再現します。合成された音声は、音声変換モデルによって元の話者の音声に戻される。最後に、話者の唇と翻訳された音声を同期させるために、条件付き生成逆説ネットワークを用いたモデルが、入力顔画像と音声変換モデルの出力に対して、唇の動きを適応させたフレームを生成する。最後に、生成された動画と変換された音声を組み合わせて、最終的な出力を生成する。その結果、実際にその言語を知らなくても、他の言語で話す話者の映像が得られます。我々の設計を評価するために、システム全体のユーザースタディと、各コンポーネントの個別評価を行った。システム全体を評価するためのデータセットがないため、テストセットを収集し、このテストセットでシステムを評価した。その結果、本システムは、元の話者の特徴を保ちつつ、対象言語を話す説得力のある動画を生成できることがわかった。収集したデータセットは共有する予定である。
要約(オリジナル)
In this paper, we propose a neural end-to-end system for voice preserving, lip-synchronous translation of videos. The system is designed to combine multiple component models and produces a video of the original speaker speaking in the target language that is lip-synchronous with the target speech, yet maintains emphases in speech, voice characteristics, face video of the original speaker. The pipeline starts with automatic speech recognition including emphasis detection, followed by a translation model. The translated text is then synthesized by a Text-to-Speech model that recreates the original emphases mapped from the original sentence. The resulting synthetic voice is then mapped back to the original speakers’ voice using a voice conversion model. Finally, to synchronize the lips of the speaker with the translated audio, a conditional generative adversarial network-based model generates frames of adapted lip movements with respect to the input face image as well as the output of the voice conversion model. In the end, the system combines the generated video with the converted audio to produce the final output. The result is a video of a speaker speaking in another language without actually knowing it. To evaluate our design, we present a user study of the complete system as well as separate evaluations of the single components. Since there is no available dataset to evaluate our whole system, we collect a test set and evaluate our system on this test set. The results indicate that our system is able to generate convincing videos of the original speaker speaking the target language while preserving the original speaker’s characteristics. The collected dataset will be shared.
arxiv情報
著者 | Alexander Waibel,Moritz Behr,Fevziye Irem Eyiokur,Dogucan Yaman,Tuan-Nam Nguyen,Carlos Mullov,Mehmet Arif Demirtas,Alperen Kantarcı,Stefan Constantin,Hazım Kemal Ekenel |
発行日 | 2022-06-09 14:15:37+00:00 |
arxivサイト | arxiv_id(pdf) |