FocusedAD: Character-centric Movie Audio Description

要約

映画オーディオの説明(AD)は、対話のないセグメント中に視覚的なコンテンツをナレーションすることを目的としています。
一般的なビデオキャプションと比較して、ADは明示的な文字名の参照を備えたプロットに関連するナレーションを要求し、映画の理解に独特の課題を提起します。アクティブなメインキャラクターを特定し、ストーリーに関連する地域に焦点を当てるために、キャラクター中心の映画のオーディオ記述を提供する新しいフレームワークであるFocusedadを提案します。
(i)文字領域を追跡し、名前にリンクするための文字知覚モジュール(CPM)。
(ii)学習可能なソフトプロンプトを介して以前の広告および字幕からコンテキストキューを注入する動的な事前モジュール(DPM)。
(iii)プロット関連の詳細と名前付き文字で豊富なナレーションを生成する焦点を絞ったキャプションモジュール(FCM)。
文字識別の制限を克服するために、文字クエリバンクを構築するための自動パイプラインも導入します。
Focusedadは、MAD-EvalNamedの強力なゼロショット結果や、新しく提案されているシネピルADデータセットの強力なゼロショット結果を含む、複数のベンチマークで最先端のパフォーマンスを実現しています。
コードとデータはhttps://github.com/thorin215/focusedadでリリースされます。

要約(オリジナル)

Movie Audio Description (AD) aims to narrate visual content during dialogue-free segments, particularly benefiting blind and visually impaired (BVI) audiences. Compared with general video captioning, AD demands plot-relevant narration with explicit character name references, posing unique challenges in movie understanding.To identify active main characters and focus on storyline-relevant regions, we propose FocusedAD, a novel framework that delivers character-centric movie audio descriptions. It includes: (i) a Character Perception Module(CPM) for tracking character regions and linking them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused Caption Module(FCM) that generates narrations enriched with plot-relevant details and named characters. To overcome limitations in character identification, we also introduce an automated pipeline for building character query banks. FocusedAD achieves state-of-the-art performance on multiple benchmarks, including strong zero-shot results on MAD-eval-Named and our newly proposed Cinepile-AD dataset. Code and data will be released at https://github.com/Thorin215/FocusedAD .

arxiv情報

著者 Xiaojun Ye,Chun Wang,Yiren Song,Sheng Zhou,Liangcheng Li,Jiajun Bu
発行日 2025-04-16 15:04:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 パーマリンク