要約
このペーパーでは、長いビデオを理解するための難しい質問、回答、おとりのセットを生成する半自動パイプラインについて説明します。
既存のビデオ データセットとモデルの多くは、短いクリップ (10 秒から 30 秒) に焦点を当てています。
長いビデオ データセットはいくつか存在しますが、多くの場合、ビデオ内のフレームごと (多くの場合、非常に少数のフレームに) 適用される強力な画像モデルによって解決でき、通常は高コストで手動でアノテーションが付けられます。
これら両方の問題を軽減するために、大規模なモデル (VLM および LLM) を活用して、高密度で時間に合わせたビデオ キャプションと、ビデオ セグメント (最大
長さは15分)。
私たちのデータセット Neptune は、広範囲の長時間ビデオ推論能力をカバーしており、マルチモーダル推論を強調するサブセットで構成されています。
自由回答形式の質問回答の既存の指標はルールベースであるか、独自のモデルに依存している可能性があるため、Neptune で自由回答形式の回答をスコアリングするための新しいオープンソースのモデルベースの指標 GEM を提供します。
ベンチマーク評価の結果、現在のオープンソースの長いビデオ モデルのほとんどは、特に時間的な順序付け、カウント、および状態の変化をテストする質問において、Neptune ではパフォーマンスが低いことが明らかになりました。
Neptune を通じて、長いビデオを理解できるより高度なモデルの開発を促進することを目指しています。
データセットは https://github.com/google-deepmind/neptune で入手できます。
要約(オリジナル)
This paper describes a semi-automatic pipeline to generate challenging question-answer-decoy sets for understanding long videos. Many existing video datasets and models are focused on short clips (10s-30s). While some long video datasets do exist, they can often be solved by powerful image models applied per frame (and often to very few frames) in a video, and are usually manually annotated at high cost. In order to mitigate both these problems, we propose a scalable dataset creation pipeline which leverages large models (VLMs and LLMs), to automatically generate dense, time-aligned video captions, as well as tough question answer decoy sets for video segments (up to 15 minutes in length). Our dataset Neptune covers a broad range of long video reasoning abilities and consists of a subset that emphasizes multimodal reasoning. Since existing metrics for open-ended question answering are either rule-based or may rely on proprietary models, we provide a new open source model-based metric GEM to score open-ended responses on Neptune. Benchmark evaluations reveal that most current open-source long video models perform poorly on Neptune, particularly on questions testing temporal ordering, counting and state changes. Through Neptune, we aim to spur the development of more advanced models capable of understanding long videos. The dataset is available at https://github.com/google-deepmind/neptune
arxiv情報
著者 | Arsha Nagrani,Mingda Zhang,Ramin Mehran,Rachel Hornung,Nitesh Bharadwaj Gundavarapu,Nilpa Jha,Austin Myers,Xingyi Zhou,Boqing Gong,Cordelia Schmid,Mikhail Sirotenko,Yukun Zhu,Tobias Weyand |
発行日 | 2024-12-12 18:54:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google