要約
我々は、DeVAn (Dense Video Annotation) と呼ばれる、現実世界のビデオ クリップの短い説明と長い説明の両方を生成する視覚言語モデルの能力を評価するための、新しい人間による注釈付きデータセットを紹介します。
このデータセットには、長さ 20 ~ 60 秒の 8.5K の YouTube ビデオ クリップが含まれており、幅広いトピックや興味をカバーしています。
各ビデオ クリップは 5 人の人間のアノテーターによって個別に注釈が付けられ、キャプション (1 文) と概要 (3 ~ 10 文) の両方が作成されます。
データセットから選択されたビデオとそれに対応する ASR 情報が与えられた場合、ビデオの視覚的コンテンツと聴覚的コンテンツの両方に基づいたキャプションまたは概要の生成に基づいて視覚言語モデルを評価します。
さらに、モデルはキャプションベースおよび要約ベースの検索タスクでも評価されます。要約ベースの検索タスクでは、特定の要約の抜粋が与えられた場合にターゲットビデオを識別する必要があります。
段落長のビデオ要約タスクの新しい性質を考慮して、さまざまな既存の評価指標と人間の好みとの整合性を比較したところ、モデルベースの評価指標がより意味論的指向で人間に合わせた評価を提供することがわかりました。
最後に、DeVAn で現在の幅広いビデオ言語モデルのベンチマークを行い、大規模な言語モデルと複雑なマルチモーダル タスクの時代に DeVAn が有用な評価セットとして機能することを目指しています。
コードは https://github.com/TK-21st/DeVAn で入手できます。
要約(オリジナル)
We present a novel human annotated dataset for evaluating the ability for visual-language models to generate both short and long descriptions for real-world video clips, termed DeVAn (Dense Video Annotation). The dataset contains 8.5K YouTube video clips of 20-60 seconds in duration and covers a wide range of topics and interests. Each video clip is independently annotated by 5 human annotators, producing both captions (1 sentence) and summaries (3-10 sentences). Given any video selected from the dataset and its corresponding ASR information, we evaluate visuallanguage models on either caption or summary generation that is grounded in both the visual and auditory content of the video. Additionally, models are also evaluated on caption- and summary-based retrieval tasks, where the summary-based retrieval task requires the identification of a target video given excerpts of a given summary. Given the novel nature of the paragraph-length video summarization task, we compared different existing evaluation metrics and their alignment with human preferences and found that model-based evaluation metrics provide more semantically-oriented and human-aligned evaluation. Finally, we benchmarked a wide range of current video-language models on DeVAn, and we aim for DeVAn to serve as a useful evaluation set in the age of large language models and complex multi-modal tasks. Code is available at https: //github.com/TK-21st/DeVAn.
arxiv情報
著者 | Tingkai Liu,Yunzhe Tao,Haogeng Liu,Qihang Fan,Ding Zhou,Huaibo Huang,Ran He,Hongxia Yang |
発行日 | 2024-08-09 16:26:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google