要約
字幕は、視聴覚コンテンツのアクセシビリティを高める上で重要な役割を果たしており、音声対話の翻訳、翻訳の簡潔なテキスト単位への分割、および画面上の継続時間を決定するタイムスタンプの推定という 3 つの主要なサブタスクが含まれます。
このプロセスを自動化するこれまでの試みは、3 つのサブタスクにさまざまに使用された自動トランスクリプトに、程度の差はあれ、依存していました。
このトランスクリプトへの依存に関連する認識された制限に対応して、最近の研究は翻訳とセグメンテーションのためのトランスクリプトを使用しないソリューションに移行しており、タイムスタンプの直接生成は未知の領域として残されています。
このギャップを埋めるために、自動字幕を生成できる最初の直接モデルを導入し、タイムスタンプ予測においても中間トランスクリプトへの依存を完全に排除します。
手動評価に裏付けられた実験結果は、複数の言語ペアと多様な条件にわたる当社のソリューションの新しい最先端のパフォーマンスを示しています。
要約(オリジナル)
Subtitling plays a crucial role in enhancing the accessibility of audiovisual content and encompasses three primary subtasks: translating spoken dialogue, segmenting translations into concise textual units, and estimating timestamps that govern their on-screen duration. Past attempts to automate this process rely, to varying degrees, on automatic transcripts, employed diversely for the three subtasks. In response to the acknowledged limitations associated with this reliance on transcripts, recent research has shifted towards transcription-free solutions for translation and segmentation, leaving the direct generation of timestamps as uncharted territory. To fill this gap, we introduce the first direct model capable of producing automatic subtitles, entirely eliminating any dependence on intermediate transcripts also for timestamp prediction. Experimental results, backed by manual evaluation, showcase our solution’s new state-of-the-art performance across multiple language pairs and diverse conditions.
arxiv情報
著者 | Marco Gaido,Sara Papi,Matteo Negri,Mauro Cettolo,Luisa Bentivogli |
発行日 | 2024-05-17 12:42:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google