VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models

要約

時間の経過とともに物体がどのように変化するかを認識する能力は、人間の知性にとって重要な要素です。
ただし、現在のベンチマークは、静的な視覚ショートカットが存在するため、ビデオ言語モデル (VidLM) の時間的理解能力を忠実に反映できません。
この問題を解決するために、時間概念理解の評価のための診断用ビデオテキスト データセットである VITATECS を紹介します。
具体的には、さまざまな時間的側面を理解する VidLM の能力を診断するために、まず自然言語における時間的概念のきめの細かい分類を導入します。
さらに、静的情報と時間的情報の間の相関関係を解きほぐすために、指定された時間的側面においてのみ元のものとは異なる反事実的なビデオ記述を生成します。
当社では、大規模な言語モデルと人間参加型の注釈を使用した半自動データ収集フレームワークを採用し、高品質の反事実の説明を効率的に取得します。
代表的なビデオ言語理解モデルの評価により、それらの時間的理解が不十分であることが確認され、ビデオ言語研究において時間的要素をより重視する必要があることが明らかになりました。

要約(オリジナル)

The ability to perceive how objects change over time is a crucial ingredient in human intelligence. However, current benchmarks cannot faithfully reflect the temporal understanding abilities of video-language models (VidLMs) due to the existence of static visual shortcuts. To remedy this issue, we present VITATECS, a diagnostic VIdeo-Text dAtaset for the evaluation of TEmporal Concept underStanding. Specifically, we first introduce a fine-grained taxonomy of temporal concepts in natural language in order to diagnose the capability of VidLMs to comprehend different temporal aspects. Furthermore, to disentangle the correlation between static and temporal information, we generate counterfactual video descriptions that differ from the original one only in the specified temporal aspect. We employ a semi-automatic data collection framework using large language models and human-in-the-loop annotation to obtain high-quality counterfactual descriptions efficiently. Evaluation of representative video-language understanding models confirms their deficiency in temporal understanding, revealing the need for greater emphasis on the temporal elements in video-language research.

arxiv情報

著者 Shicheng Li,Lei Li,Shuhuai Ren,Yuanxin Liu,Yi Liu,Rundong Gao,Xu Sun,Lu Hou
発行日 2023-11-29 07:15:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク