Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos

要約

最近、最新の大規模マルチモーダルモデル(LMM)は、短編ビデオの理解に関連する重要な課題のほとんどに対処しているとの見方が広まっている。その結果、学界も産業界も、長尺ビデオの理解という、より複雑な課題に徐々に関心を移しつつある。しかし、本当にそうなのだろうか?我々の研究によると、LMMは短い動画を扱う場合でも、多くの基本的な推論能力を欠いている。Vinogroundを紹介する。Vinogroundは時間的な反実仮想LMM評価ベンチマークであり、1000組の短い自然なビデオキャプションを含む。既存のLMMでは、異なるアクションやオブジェクトの変換の時間的な違いを区別することが困難であることを示す。例えば、最良のモデルGPT-4oは、テキストとビデオのスコアで〜50%しか得られず、人間のベースラインである〜90%と比較すると大きな隔たりがある。すべてのオープンソースのマルチモーダルモデルとCLIPベースのモデルは、はるかに悪いパフォーマンスを示し、ほとんどランダムな偶然のパフォーマンスを生成します。この研究を通して、短い動画における時間的推論は、まだ完全に解決されていない問題であるという事実に光を当てる。データセットと評価コードはhttps://vinoground.github.io。

要約(オリジナル)

There has been growing sentiment recently that modern large multimodal models (LMMs) have addressed most of the key challenges related to short video comprehension. As a result, both academia and industry are gradually shifting their attention towards the more complex challenges posed by understanding long-form videos. However, is this really the case? Our studies indicate that LMMs still lack many fundamental reasoning capabilities even when dealing with short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation benchmark encompassing 1000 short and natural video-caption pairs. We demonstrate that existing LMMs severely struggle to distinguish temporal differences between different actions and object transformations. For example, the best model GPT-4o only obtains ~50% on our text and video scores, showing a large gap compared to the human baseline of ~90%. All open-source multimodal models and CLIP-based models perform much worse, producing mostly random chance performance. Through this work, we shed light onto the fact that temporal reasoning in short videos is a problem yet to be fully solved. The dataset and evaluation code are available at https://vinoground.github.io.

arxiv情報

著者 Jianrui Zhang,Mu Cai,Yong Jae Lee
発行日 2024-10-03 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク