Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling

要約

この論文の目標は、文字を認識した字幕を自動生成することです。
ビデオと最小限のメタデータが与えられた場合、正確な音声タイムスタンプと識別された登場人物が話している会話の完全なトランスクリプトを生成するオーディオビジュアル手法を提案します。
重要なアイデアは、最初に視聴覚キューを使用して各文字の高精度音声サンプルのセットを選択し、次にこれらのサンプルを使用して話者のアイデンティティごとにすべての音声セグメントを分類することです。
特に、この方法は顔の検出や追跡を必要としません。
私たちは、Seinfeld、Fraiser、Scrubs など、さまざまなテレビのホームコメディでこの手法を評価しています。
このシステムは、現代のストリーミング サービスで利用できる膨大な量のビデオのアクセシビリティを向上させるための字幕の自動生成に役立つと考えています。
プロジェクトページ: \url{https://www.robots.ox.ac.uk/~vgg/research/look-listen-recognise/}

要約(オリジナル)

The goal of this paper is automatic character-aware subtitle generation. Given a video and a minimal amount of metadata, we propose an audio-visual method that generates a full transcript of the dialogue, with precise speech timestamps, and the character speaking identified. The key idea is to first use audio-visual cues to select a set of high-precision audio exemplars for each character, and then use these exemplars to classify all speech segments by speaker identity. Notably, the method does not require face detection or tracking. We evaluate the method over a variety of TV sitcoms, including Seinfeld, Fraiser and Scrubs. We envision this system being useful for the automatic generation of subtitles to improve the accessibility of the vast amount of videos available on modern streaming services. Project page : \url{https://www.robots.ox.ac.uk/~vgg/research/look-listen-recognise/}

arxiv情報

著者 Bruno Korbar,Jaesung Huh,Andrew Zisserman
発行日 2024-01-22 15:26:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク