ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video

要約

最大 60% が英語で公開されているインターネットの豊富なコンテンツは、英語を母国語としている人はわずか 18.8%、英語を母国語としている人はわずか 5.1% である世界人口とは顕著に対照的であり、オンライン情報アクセスにおける格差につながっています。
残念ながら、ビデオのダビングの自動化プロセス(ビデオの音声トラックを翻訳された代替物に置き換える)は、パイプラインのため依然として複雑で困難な作業であり、正確なタイミング、顔の動きの同期、韻律のマッチングが必要です。
エンドツーエンドのダビングは解決策を提供しますが、データ不足がエンドツーエンドとパイプラインベースの両方の方法の進歩を妨げ続けています。
この作業では、自動吹き替え、同時翻訳、ガイド付きビデオの要約、ジャンル/テーマ/スタイルの分類など、さまざまなビデオ関連タスクをサポートする、日本語と英語の 425,000 を超えるアニメーション ビデオ セグメントの包括的なデータセットである Anim-400K を紹介します。
私たちのデータセットは、研究目的で https://github.com/davidmchan/Anim400K で公開されています。

要約(オリジナル)

The Internet’s wealth of content, with up to 60% published in English, starkly contrasts the global population, where only 18.8% are English speakers, and just 5.1% consider it their native language, leading to disparities in online information access. Unfortunately, automated processes for dubbing of video – replacing the audio track of a video with a translated alternative – remains a complex and challenging task due to pipelines, necessitating precise timing, facial movement synchronization, and prosody matching. While end-to-end dubbing offers a solution, data scarcity continues to impede the progress of both end-to-end and pipeline-based methods. In this work, we introduce Anim-400K, a comprehensive dataset of over 425K aligned animated video segments in Japanese and English supporting various video-related tasks, including automated dubbing, simultaneous translation, guided video summarization, and genre/theme/style classification. Our dataset is made publicly available for research purposes at https://github.com/davidmchan/Anim400K.

arxiv情報

著者 Kevin Cai,Chonghua Liu,David M. Chan
発行日 2024-01-10 18:32:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS パーマリンク