Speaker Diarization of Scripted Audiovisual Content

要約

メディア・ローカライゼーション業界では通常、外国語の字幕や吹替用スクリプトを作成するために、最終的な映画やテレビ作品の逐語台本を必要とします。特に、逐語台本(放送時の台本)は、タイムコード、話者名、トランスクリプトを含む一連のセリフに構成する必要があります。現在の音声認識技術は、書き起こしのステップを軽減する。しかし、最新の話者日記化モデルは、(i)多数の話者を追跡できない、(ii)頻繁な話者の変更を検出する精度が低い、という2つの主な理由により、テレビ番組ではまだ不十分である。この問題を軽減するために、我々は、撮影プロセスで使用されるプロダクションスクリプトを活用し、話者ダイアライゼーションタスクのための擬似ラベル付けデータを抽出する新しいアプローチを提示する。我々は新しい半教師付きアプローチを提案し、66の番組テストセットにおいて、2つの教師なしベースラインモデルと比較して51.7%の改善を実証する。

要約(オリジナル)

The media localization industry usually requires a verbatim script of the final film or TV production in order to create subtitles or dubbing scripts in a foreign language. In particular, the verbatim script (i.e. as-broadcast script) must be structured into a sequence of dialogue lines each including time codes, speaker name and transcript. Current speech recognition technology alleviates the transcription step. However, state-of-the-art speaker diarization models still fall short on TV shows for two main reasons: (i) their inability to track a large number of speakers, (ii) their low accuracy in detecting frequent speaker changes. To mitigate this problem, we present a novel approach to leverage production scripts used during the shooting process, to extract pseudo-labeled data for the speaker diarization task. We propose a novel semi-supervised approach and demonstrate improvements of 51.7% relative to two unsupervised baseline models on our metrics on a 66 show test set.

arxiv情報

著者 Yogesh Virkar,Brian Thompson,Rohit Paturi,Sundararajan Srinivasan,Marcello Federico
発行日 2023-08-04 06:37:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク