要約
映画のオーディオ ディスクリプション (AD) を生成することは、きめ細かい視覚的な理解と、登場人物とその名前の認識を必要とする困難な作業です。
現在、AD 生成用の視覚言語モデルは、適切なトレーニング データの欠如によって制限されており、また、AD ドメインに特化していないパフォーマンス測定を使用することによってその評価が妨げられています。
この論文では、次の 3 つの貢献を行います。 (i) 位置合わせされたビデオ データを使用して AD データセットを構築するための 2 つのアプローチを提案し、これらを使用してトレーニング データセットと評価データセットを構築します。
これらのデータセットは一般に公開されます。
(ii) 私たちは、凍結された事前トレーニング済みのビジュアル エンコーダと大規模な言語モデルを使用して、生のビデオを取り込み、AD を生成する Q フォーマー ベースのアーキテクチャを開発します。
(iii) 人間のパフォーマンスによく適合する AD の品質をベンチマークするための新しい評価指標を提供します。
これらを総合すると、AD 生成に関する最先端の技術が向上します。
要約(オリジナル)
Generating Audio Description (AD) for movies is a challenging task that requires fine-grained visual understanding and an awareness of the characters and their names. Currently, visual language models for AD generation are limited by a lack of suitable training data, and also their evaluation is hampered by using performance measures not specialized to the AD domain. In this paper, we make three contributions: (i) We propose two approaches for constructing AD datasets with aligned video data, and build training and evaluation datasets using these. These datasets will be publicly released; (ii) We develop a Q-former-based architecture which ingests raw video and generates AD, using frozen pre-trained visual encoders and large language models; and (iii) We provide new evaluation metrics to benchmark AD quality that are well-matched to human performance. Taken together, we improve the state of the art on AD generation.
arxiv情報
著者 | Tengda Han,Max Bain,Arsha Nagrani,Gül Varol,Weidi Xie,Andrew Zisserman |
発行日 | 2024-04-22 17:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google