要約
非常に長い形式のビデオ質問応答データセットである EgoSchema と、最新の視覚システムと言語システムの長いビデオ理解能力を評価するためのベンチマークを紹介します。
Ego4D から派生した EgoSchema は、人間が厳選した 5,000 を超える多肢選択の質問と回答のペアで構成されており、250 時間以上の実際のビデオ データに及び、人間の非常に広範囲の自然な活動と行動をカバーしています。
EgoSchema では、質問ごとに、3 分間のビデオ クリップに基づいて 5 つの選択肢から正解を選択する必要があります。
いくつかの先行研究では、長いクリップ長のビデオ データセットが提案されていますが、ビデオ クリップの長さだけでは、検討されているビデオ タスクの時間的な難しさを真に捉えることはできないと考えられます。
これを解決するために、広範囲のビデオ理解タスクとデータセットに関連する本質的な時間理解の長さをキャプチャするための一般的な概念である時間証明書セットを導入します。
この指標に基づいて、EgoSchema は 2 番目に近いデータセットよりも 5.7 倍以上長く、他のビデオ理解データセットよりも 10 倍から 100 倍長い固有の時間長を持っていることがわかります。
さらに、いくつかの現在の最先端のビデオおよび言語モデルを評価したところ、長期的なビデオ理解能力が著しく不足していることがわかりました。
EgoSchema の多肢選択質問応答タスクでは、数十億のパラメーターを持つモデルでも QA 精度は 33% 未満 (ランダムは 20%) 未満ですが、人間は約 76% の精度を達成します。
\name{}{} は、その長い固有の時間構造と多様な複雑性を備えており、将来、効果的な長期ビデオ理解システムを開発するための貴重な評価プローブとして機能すると考えられます。
データとゼロショット モデルの評価コードは、http://egoschema.github.io の Ego4D ライセンスに基づいて、公共および商用の両方でオープンソース化されています。
要約(オリジナル)
We introduce EgoSchema, a very long-form video question-answering dataset, and benchmark to evaluate long video understanding capabilities of modern vision and language systems. Derived from Ego4D, EgoSchema consists of over 5000 human curated multiple choice question answer pairs, spanning over 250 hours of real video data, covering a very broad range of natural human activity and behavior. For each question, EgoSchema requires the correct answer to be selected between five given options based on a three-minute-long video clip. While some prior works have proposed video datasets with long clip lengths, we posit that merely the length of the video clip does not truly capture the temporal difficulty of the video task that is being considered. To remedy this, we introduce temporal certificate sets, a general notion for capturing the intrinsic temporal understanding length associated with a broad range of video understanding tasks & datasets. Based on this metric, we find EgoSchema to have intrinsic temporal lengths over 5.7x longer than the second closest dataset and 10x to 100x longer than any other video understanding dataset. Further, our evaluation of several current state-of-the-art video and language models shows them to be severely lacking in long-term video understanding capabilities. Even models with several billions of parameters achieve QA accuracy less than 33% (random is 20%) on the EgoSchema multi-choice question answering task, while humans achieve about 76% accuracy. We posit that \name{}{}, with its long intrinsic temporal structures and diverse complexity, would serve as a valuable evaluation probe for developing effective long-term video understanding systems in the future. Data and Zero-shot model evaluation code are open-sourced for both public and commercial use under the Ego4D license at http://egoschema.github.io
arxiv情報
著者 | Karttikeya Mangalam,Raiymbek Akshulakov,Jitendra Malik |
発行日 | 2023-08-17 17:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google