Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding

要約

視覚言語モデルの最近の進歩により、ビデオの理解が大幅に促進されました。
ただし、既存のデータセットとタスクには顕著な制限があります。
ほとんどのデータセットは、限られたイベントと狭い物語を含む短いビデオに限定されています。
たとえば、教育ビデオや自己中心的なビデオを含むデータセットは、多くの場合、単一シーン内の 1 人の人物の活動を記録します。
一部の映画データセットはより豊富なコンテンツを提供しますが、多くの場合、短期間のタスクに限定されており、公開されているビデオがなく、LLM トレーニングで映画フォーラムやその他のリソースを使用することを考えると、頻繁にデータ漏洩に遭遇します。
上記の制限に対処するために、私たちは、公開されている 1,078 本のアマチュア映画、幅広いジャンル、および最小限のデータ漏洩問題を含むショート フィルム データセット (SFD) を提案します。
SFD は、長期にわたるストーリー指向のビデオ タスクを、多肢選択式の自由回答形式で提供します。
私たちの広範な実験では、SFD タスクを解決するには長期的な推論の必要性が強調されています。
特に、映画のトランスクリプトには、人々と LLM の同等のパフォーマンスにつながる強いシグナルが見つかりました。
また、視覚データのみを使用した場合、人間と比較して現在のモデルのパフォーマンスが大幅に低いこともわかりました。

要約(オリジナル)

Recent advances in vision-language models have significantly propelled video understanding. Existing datasets and tasks, however, have notable limitations. Most datasets are confined to short videos with limited events and narrow narratives. For example, datasets with instructional and egocentric videos often document the activities of one person in a single scene. Although some movie datasets offer richer content, they are often limited to short-term tasks, lack publicly available videos and frequently encounter data leakage given the use of movie forums and other resources in LLM training. To address the above limitations, we propose the Short Film Dataset (SFD) with 1,078 publicly available amateur movies, a wide variety of genres and minimal data leakage issues. SFD offers long-term story-oriented video tasks in the form of multiple-choice and open-ended question answering. Our extensive experiments emphasize the need for long-term reasoning to solve SFD tasks. Notably, we find strong signals in movie transcripts leading to the on-par performance of people and LLMs. We also show significantly lower performance of current models compared to people when using vision data alone.

arxiv情報

著者 Ridouane Ghermi,Xi Wang,Vicky Kalogeiton,Ivan Laptev
発行日 2024-06-14 17:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク