CinePile: A Long Video Question Answering Dataset and Benchmark

要約

長い形式のビデオを理解するための現在のデータセットは、ビデオから 1 つまたはいくつかのランダムなフレームを分析するだけで、これらのデータセットから得られる多くのタスクにうまく取り組むことができるため、真の長い形式の理解の課題を提供するには不十分であることがよくあります。
この問題に対処するために、本格的な長時間ビデオの理解のために特別に設計された新しいデータセットとベンチマークである CinePile を紹介します。
このペーパーでは、人間参加型の高度な LLM を利用し、人間が生成した生データに基づいて構築する、質問と回答のデータセットを作成するための革新的なアプローチについて詳しく説明します。
当社の包括的なデータセットは 305,000 の多肢選択質問 (MCQ) で構成されており、時間的理解、人間と物体の相互作用の理解、シーン内のイベントやアクションについての推論など、さまざまな視覚的およびマルチモーダルな側面をカバーしています。
さらに、データセットのテスト分割で、オープンソースと独自の両方の最近のビデオ中心の LLM を評価します。
この調査結果は、最先端のビデオ中心の LLM でさえ、これらのタスクでは人間のパフォーマンスに大きく遅れをとっていることを明らかにし、ビデオの理解に固有の複雑さと課題を浮き彫りにしています。
データセットは https://hf.co/datasets/tomg-group-umd/cinepile で入手できます。

要約(オリジナル)

Current datasets for long-form video understanding often fall short of providing genuine long-form comprehension challenges, as many tasks derived from these datasets can be successfully tackled by analyzing just one or a few random frames from a video. To address this issue, we present a novel dataset and benchmark, CinePile, specifically designed for authentic long-form video understanding. This paper details our innovative approach for creating a question-answer dataset, utilizing advanced LLMs with human-in-the-loop and building upon human-generated raw data. Our comprehensive dataset comprises 305,000 multiple-choice questions (MCQs), covering various visual and multimodal aspects, including temporal comprehension, understanding human-object interactions, and reasoning about events or actions within a scene. Additionally, we evaluate recent video-centric LLMs, both open-source and proprietary, on the test split of our dataset. The findings reveal that even state-of-the-art video-centric LLMs significantly lag behind human performance in these tasks, highlighting the complexity and challenge inherent in video understanding. The dataset is available at https://hf.co/datasets/tomg-group-umd/cinepile

arxiv情報

著者 Ruchit Rawal,Khalid Saifullah,Ronen Basri,David Jacobs,Gowthami Somepalli,Tom Goldstein
発行日 2024-06-14 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM パーマリンク