DANTE-AD: Dual-Vision Attention Network for Long-Term Audio Description

要約

オーディオの説明は、ビデオの重要な視覚要素を知覚する際にビジョン障害のある視聴者を支援するために設計されたナレーションされた解説です。
短い形式のビデオ理解は急速に進歩していますが、一貫した長期視覚的ストーリーテリングを維持するためのソリューションは未解決のままです。
既存の方法は、フレームレベルの埋め込みのみに依存しており、オブジェクトベースのコンテンツを効果的に説明しますが、シーン全体にコンテキスト情報が不足しています。
このギャップに対処するために、デュアルビジョントランスベースのアーキテクチャを活用する強化されたビデオ説明モデルであるDante-Adを紹介します。
Dante-ADは、長期的なコンテキスト理解を改善するために、フレームとシーンレベルの埋め込みの両方を順次融合します。
きめ細かいオーディオ説明生成のコンテキスト接地を達成するために、順次の相互参加のための新しい最先端の方法を提案します。
よく知られている映画クリップからの幅広い重要なシーンで評価されたDante-Adは、従来のNLPメトリックとLLMベースの評価にわたって既存の方法を上回ります。

要約(オリジナル)

Audio Description is a narrated commentary designed to aid vision-impaired audiences in perceiving key visual elements in a video. While short-form video understanding has advanced rapidly, a solution for maintaining coherent long-term visual storytelling remains unresolved. Existing methods rely solely on frame-level embeddings, effectively describing object-based content but lacking contextual information across scenes. We introduce DANTE-AD, an enhanced video description model leveraging a dual-vision Transformer-based architecture to address this gap. DANTE-AD sequentially fuses both frame and scene level embeddings to improve long-term contextual understanding. We propose a novel, state-of-the-art method for sequential cross-attention to achieve contextual grounding for fine-grained audio description generation. Evaluated on a broad range of key scenes from well-known movie clips, DANTE-AD outperforms existing methods across traditional NLP metrics and LLM-based evaluations.

arxiv情報

著者 Adrienne Deganutti,Simon Hadfield,Andrew Gilbert
発行日 2025-03-31 13:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク