TRAVID: An End-to-End Video Translation Framework

要約

今日のグローバル化した世界では、多様な言語的背景を持つ人々との効果的なコミュニケーションがますます重要になっています。
文字によるテキスト翻訳や音声のみの翻訳など、従来の言語翻訳方法でもこの作業を行うことはできますが、多くの場合、顔の表情や唇の動きなどの非言語的な手がかりを通じて伝わる完全な文脈や微妙な情報を捉えることができません。
この論文では、話し言葉を翻訳するだけでなく、翻訳された音声を話者の唇の動きと同期させる、エンドツーエンドのビデオ翻訳システムを紹介します。
当社のシステムは、インドのさまざまな言語での教育講義の翻訳に重点を置いており、リソースが少ないシステム設定でも効果を発揮できるように設計されています。
ターゲット言語に合わせた唇の動きを組み込み、音声複製技術を使用してそれらを話者の声と一致させることにより、私たちのアプリケーションは学生とユーザーに強化されたエクスペリエンスを提供します。
この追加機能により、より没入型で現実的な学習環境が作成され、最終的には学習プロセスがより効果的で魅力的なものになります。

要約(オリジナル)

In today’s globalized world, effective communication with people from diverse linguistic backgrounds has become increasingly crucial. While traditional methods of language translation, such as written text or voice-only translations, can accomplish the task, they often fail to capture the complete context and nuanced information conveyed through nonverbal cues like facial expressions and lip movements. In this paper, we present an end-to-end video translation system that not only translates spoken language but also synchronizes the translated speech with the lip movements of the speaker. Our system focuses on translating educational lectures in various Indian languages, and it is designed to be effective even in low-resource system settings. By incorporating lip movements that align with the target language and matching them with the speaker’s voice using voice cloning techniques, our application offers an enhanced experience for students and users. This additional feature creates a more immersive and realistic learning environment, ultimately making the learning process more effective and engaging.

arxiv情報

著者 Prottay Kumar Adhikary,Bandaru Sugandhi,Subhojit Ghimire,Santanu Pal,Partha Pakray
発行日 2023-09-20 14:13:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク