Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs

要約

近年の大規模言語モデル(Large Language Models:LLM)の進歩により、幅広いビデオ理解タスクを処理できるビデオ大規模マルチモーダルモデル(Video Large Multi-modal Models:Video-LMM)が開発されている。これらのモデルは、ロボット工学、AIアシスタント、医療画像処理、自律走行車などの実世界のアプリケーションに導入される可能性を秘めている。私たちの日常生活にVideo-LMMが広く採用されていることから、複雑な実世界のコンテキストにおいて、人間のような推論と対話能力を反映するVideo-LMMのロバストな性能を確保し、評価することの重要性が浮き彫りになっています。しかし、既存のVideo-LMMのベンチマークは、主に一般的なビデオ理解能力に焦点を当てており、実世界のコンテキストにおける複雑なビデオに対する推論能力や、テキストクエリとしてのユーザープロンプトのレンズを通してこれらのモデルの頑健性を評価することは軽視されている。本論文では、11の多様な実世界ビデオ次元にわたるVideo-LMMの性能を包括的に評価する新しいベンチマークであるComplex Video Reasoning and Robustness Evaluation Suite (CVRR-ES)を紹介する。我々は、オープンソースとクローズドソースの両方を含む9つの最近のモデルを評価し、Video-LMMのほとんど(特にオープンソースのもの)が、複雑な動画を扱う際のロバスト性と推論に苦戦していることを発見した。我々の分析に基づき、既存のVideo-LMMの性能を向上させるために、訓練不要のDSCP(Dual-Step Contextual Prompting)手法を開発する。我々の発見は、高度な頑健性と推論能力を備えた次世代の人間中心AIシステムを構築するための貴重な洞察を提供する。我々のデータセットとコードは、https://mbzuai-oryx.github.io/CVRR-Evaluation-Suite/ で公開されている。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have led to the development of Video Large Multi-modal Models (Video-LMMs) that can handle a wide range of video understanding tasks. These models have the potential to be deployed in real-world applications such as robotics, AI assistants, medical imaging, and autonomous vehicles. The widespread adoption of Video-LMMs in our daily lives underscores the importance of ensuring and evaluating their robust performance in mirroring human-like reasoning and interaction capabilities in complex, real-world contexts. However, existing benchmarks for Video-LMMs primarily focus on general video comprehension abilities and neglect assessing their reasoning capabilities over complex videos in the real-world context, and robustness of these models through the lens of user prompts as text queries. In this paper, we present the Complex Video Reasoning and Robustness Evaluation Suite (CVRR-ES), a novel benchmark that comprehensively assesses the performance of Video-LMMs across 11 diverse real-world video dimensions. We evaluate 9 recent models, including both open-source and closed-source variants, and find that most of the Video-LMMs, {especially open-source ones,} struggle with robustness and reasoning when dealing with complex videos. Based on our analysis, we develop a training-free Dual-Step Contextual Prompting (DSCP) technique to enhance the performance of existing Video-LMMs. Our findings provide valuable insights for building the next generation of human-centric AI systems with advanced robustness and reasoning capabilities. Our dataset and code are publicly available at: https://mbzuai-oryx.github.io/CVRR-Evaluation-Suite/.

arxiv情報

著者 Muhammad Uzair Khattak,Muhammad Ferjad Naeem,Jameel Hassan,Muzammal Naseer,Federico Tombari,Fahad Shahbaz Khan,Salman Khan
発行日 2024-05-06 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク