AutoLV: Automatic Lecture Video Generator

要約

注釈付きスライド、講師の参照音声、講師の参照ポートレート ビデオから直接、現実的で完全な講義ビデオを生成できるエンド ツー エンドの講義ビデオ生成システムを提案します。
私たちのシステムは主に、少数発話者適応による音声合成モジュールと敵対的学習ベースのトーキングヘッド生成モジュールで構成されています。
講師の負担を軽減するだけでなく、言葉遣いや訛りを変えることで、受講者が講義を聞き取りやすくなり、講義内容の普及につなげることができます。
私たちの実験結果は、提案されたモデルが信頼性、自然さ、正確さの点で他の現在のアプローチよりも優れていることを示しています。
これは、当社のシステムがどのように機能するか、および評価と比較の結果を示すビデオ デモンストレーションです: https://youtu.be/cY6TYkI0cog.

要約(オリジナル)

We propose an end-to-end lecture video generation system that can generate realistic and complete lecture videos directly from annotated slides, instructor’s reference voice and instructor’s reference portrait video. Our system is primarily composed of a speech synthesis module with few-shot speaker adaptation and an adversarial learning-based talking-head generation module. It is capable of not only reducing instructors’ workload but also changing the language and accent which can help the students follow the lecture more easily and enable a wider dissemination of lecture contents. Our experimental results show that the proposed model outperforms other current approaches in terms of authenticity, naturalness and accuracy. Here is a video demonstration of how our system works, and the outcomes of the evaluation and comparison: https://youtu.be/cY6TYkI0cog.

arxiv情報

著者 Wenbin Wang,Yang Song,Sanjay Jha
発行日 2022-09-19 07:00:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク