要約
自動字幕作成は、オーディオビジュアル コンテンツの音声を、時間指定された短いテキスト、つまり字幕とそれに対応するタイムスタンプに自動的に翻訳するタスクです。
生成された字幕は、スペースと時間の要件に適合すると同時に、音声と同期され、理解を容易にする方法でセグメント化される必要があります。
かなりの複雑さを考慮して、このタスクはこれまでのところ、テキストの転写、翻訳、字幕への分割、およびタイムスタンプの予測を個別に処理するコンポーネントのパイプラインを通じて対処されてきました。
この論文では、単一のモデルでターゲット言語の字幕とそのタイムスタンプを生成する、自動字幕作成のための最初の直接 ST モデルを提案します。
7 つの言語ペアでの実験では、私たちのアプローチが同じデータ条件でカスケード システムよりも優れたパフォーマンスを発揮し、新しいシナリオをカバーするドメイン内ベンチマークと新しくリリースされたドメイン外ベンチマークの両方で運用ツールと競合できることがわかりました。
要約(オリジナル)
Automatic subtitling is the task of automatically translating the speech of audiovisual content into short pieces of timed text, i.e. subtitles and their corresponding timestamps. The generated subtitles need to conform to space and time requirements, while being synchronised with the speech and segmented in a way that facilitates comprehension. Given its considerable complexity, the task has so far been addressed through a pipeline of components that separately deal with transcribing, translating, and segmenting text into subtitles, as well as predicting timestamps. In this paper, we propose the first direct ST model for automatic subtitling that generates subtitles in the target language along with their timestamps with a single model. Our experiments on 7 language pairs show that our approach outperforms a cascade system in the same data condition, also being competitive with production tools on both in-domain and newly-released out-domain benchmarks covering new scenarios.
arxiv情報
著者 | Sara Papi,Marco Gaido,Alina Karakanta,Mauro Cettolo,Matteo Negri,Marco Turchi |
発行日 | 2023-07-25 18:12:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google