要約
視覚言語モデルの最近の開発により、ビデオの理解が大幅に進歩しました。
ただし、既存のデータセットとタスクには顕著な制限があります。
ほとんどのデータセットは、限られたイベントと狭い物語を含む短いビデオに限定されています。
たとえば、教育ビデオや自己中心的なビデオを含むデータセットでは、多くの場合、1 つのシーンで 1 人の人物の活動が描写されます。
既存の映画データセットはより豊富なコンテンツを提供しますが、多くの場合、短期間のタスクに限定されており、公開されているビデオがなく、LLM の事前トレーニング中に商業映画に関する字幕やその他の情報が使用されるため、データ漏洩の問題が頻繁に発生します。
上記の制限に対処するために、公開されている最大の映画データセットである Short-Films 20K (SF20K) を提案します。
SF20K は 20,143 本のアマチュア映画で構成されており、多肢選択式および自由回答形式の長期ビデオ タスクを提供します。
SF20K の広範な分析により、データ漏洩が最小限であることが明らかになり、長期的な推論の必要性が強調され、最近の VLM の強力なパフォーマンスが実証されました。
最後に、SF20K-Train セットでの命令チューニングによりモデルのパフォーマンスが大幅に向上し、長期的なビデオの理解における将来の進歩への道が開かれることを示します。
要約(オリジナル)
Recent developments in vision-language models have significantly advanced video understanding. Existing datasets and tasks, however, have notable limitations. Most datasets are confined to short videos with limited events and narrow narratives. For example, datasets with instructional and egocentric videos often depict activities of one person in a single scene. Although existing movie datasets offer richer content, they are often limited to short-term tasks, lack publicly available videos, and frequently encounter data leakage issues given the use of subtitles and other information about commercial movies during LLM pretraining. To address the above limitations, we propose Short-Films 20K (SF20K), the largest publicly available movie dataset. SF20K is composed of 20,143 amateur films and offers long-term video tasks in the form of multiple-choice and open-ended question answering. Our extensive analysis of SF20K reveals minimal data leakage, emphasizes the need for long-term reasoning, and demonstrates the strong performance of recent VLMs. Finally, we show that instruction tuning on the SF20K-Train set substantially improves model performance, paving the way for future progress in long-term video understanding.
arxiv情報
著者 | Ridouane Ghermi,Xi Wang,Vicky Kalogeiton,Ivan Laptev |
発行日 | 2025-01-10 10:36:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google