Movie101: A New Movie Understanding Benchmark

要約

視覚障害者が映画を楽しめるよう、自動映画ナレーション システムは、俳優のセリフがない場合でも、正確で一貫性があり、役割を意識したプロットをナレーションすることが期待されています。
既存の研究では、役割名の削除や ngram ベースのメトリクスによるナレーションの評価などのいくつかの簡略化を介して、この課題を通常のビデオキャプションタスクとしてベンチマークしています。これにより、自動システムが実際のアプリケーションシナリオのニーズを満たすことが困難になります。
この差を縮めるために、我々は Movie101 という名前の大規模な中国映画ベンチマークを構築しました。
実際のシナリオに近いものとして、ベンチマークのムービー クリップ ナレーション (MCN) タスクでは、俳優が話していない完全なムービー クリップに対して役割を意識したナレーション段落を生成するようモデルに要求します。
映画をより深く理解するために、役柄情報や映画ジャンルなどの外部知識も提供されます。
さらに、人間の評価と最も高い相関関係を達成する映画ナレーション評価のために、映画ナレーション スコア (MNScore) と呼ばれる新しい指標を提案します。
私たちのベンチマークは、テキスト説明が与えられたクリップのローカリゼーションを調査するための時間ナレーション グラウンディング (TNG) タスクもサポートしています。
2 つのタスクの両方において、私たちが提案する手法は外部の知識をうまく活用しており、慎重に設計されたベースラインよりも優れたパフォーマンスを発揮します。
データセットとコードは https://github.com/yuezih/Movie101 でリリースされています。

要約(オリジナル)

To help the visually impaired enjoy movies, automatic movie narrating systems are expected to narrate accurate, coherent, and role-aware plots when there are no speaking lines of actors. Existing works benchmark this challenge as a normal video captioning task via some simplifications, such as removing role names and evaluating narrations with ngram-based metrics, which makes it difficult for automatic systems to meet the needs of real application scenarios. To narrow this gap, we construct a large-scale Chinese movie benchmark, named Movie101. Closer to real scenarios, the Movie Clip Narrating (MCN) task in our benchmark asks models to generate role-aware narration paragraphs for complete movie clips where no actors are speaking. External knowledge, such as role information and movie genres, is also provided for better movie understanding. Besides, we propose a new metric called Movie Narration Score (MNScore) for movie narrating evaluation, which achieves the best correlation with human evaluation. Our benchmark also supports the Temporal Narration Grounding (TNG) task to investigate clip localization given text descriptions. For both two tasks, our proposed methods well leverage external knowledge and outperform carefully designed baselines. The dataset and codes are released at https://github.com/yuezih/Movie101.

arxiv情報

著者 Zihao Yue,Qi Zhang,Anwen Hu,Liang Zhang,Ziheng Wang,Qin Jin
発行日 2023-06-27 11:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク