NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative

要約

既存のビデオキャプションベンチマークとモデルには、因果関係を介してリンクされ、時間の経過とともに展開し、キャラクターやエージェントによって駆動される一連の出来事である因果時間的物語の一貫した表現が欠けています。
この物語の欠如により、ビデオ コンテンツに固有の因果的および時間的ダイナミクスを捉えるテキスト記述を生成するモデルの能力が制限されます。
このギャップに対処するために、我々は NarrativeBridge を提案します。これは次のようなアプローチで構成されます。 (1) 大規模な言語モデルと少数のショットのプロンプトを使用して生成された新しい因果時間ナラティブ (CTN) キャプション ベンチマーク。ビデオ説明の因果関係の時間的関係を明示的にエンコードします。
、キャプションの品質と関連性を確保するために自動的に評価されます。
(2) 原因と結果のダイナミクスを個別にキャプチャするための個別のエンコーダーを備えた専用の原因-結果ネットワーク (CEN) アーキテクチャにより、因果時間的な物語を伴うキャプションの効果的な学習と生成が可能になります。
広範な実験により、CEN は 2 番目に優れたモデル (GIT) よりもビデオ コンテンツの因果的側面と時間的側面をより正確に表現できることが実証されています。MSVD データセットと MSR-VTT データセットでは、それぞれ 17.88 と 17.44 CIDEr でした。
提案されたフレームワークは、ビデオに存在する複雑な因果的時間的物語構造を含む微妙なテキスト説明を理解して生成し、ビデオキャプションの重大な制限に対処します。
プロジェクトの詳細については、https://narrativebridge.github.io/ をご覧ください。

要約(オリジナル)

Existing video captioning benchmarks and models lack coherent representations of causal-temporal narrative, which is sequences of events linked through cause and effect, unfolding over time and driven by characters or agents. This lack of narrative restricts models’ ability to generate text descriptions that capture the causal and temporal dynamics inherent in video content. To address this gap, we propose NarrativeBridge, an approach comprising of: (1) a novel Causal-Temporal Narrative (CTN) captions benchmark generated using a large language model and few-shot prompting, explicitly encoding cause-effect temporal relationships in video descriptions, evaluated automatically to ensure caption quality and relevance; and (2) a dedicated Cause-Effect Network (CEN) architecture with separate encoders for capturing cause and effect dynamics independently, enabling effective learning and generation of captions with causal-temporal narrative. Extensive experiments demonstrate that CEN is more accurate in articulating the causal and temporal aspects of video content than the second best model (GIT): 17.88 and 17.44 CIDEr on the MSVD and MSR-VTT datasets, respectively. The proposed framework understands and generates nuanced text descriptions with intricate causal-temporal narrative structures present in videos, addressing a critical limitation in video captioning. For project details, visit https://narrativebridge.github.io/.

arxiv情報

著者 Asmar Nadeem,Faegheh Sardari,Robert Dawes,Syed Sameed Husain,Adrian Hilton,Armin Mustafa
発行日 2024-06-10 17:34:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク