ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos

要約

ビデオ イベント内で時間的推論を実行する AI モデルの能力を厳密にテストするために設計されたベンチマークである ReXTime を紹介します。
具体的には、ReXTime は、時間を超えた推論、つまり、質問とそれに対応する回答がさまざまなビデオ セグメントで発生した場合の人間のような理解に焦点を当てています。
この形式の推論は、ビデオ セグメント全体にわたる因果関係の高度な理解を必要とし、最先端のマルチモーダル大規模言語モデルに対しても重大な課題を引き起こします。
この評価を容易にするために、時間的推論の質問と回答のペアを生成するための自動パイプラインを開発し、労働集約的な手動アノテーションの必要性を大幅に削減します。
当社のベンチマークには、慎重に精査された 921 個の検証サンプルと 2,143 個のテスト サンプルが含まれており、それぞれが正確さと関連性のために手動で厳選されています。
評価結果によると、フロンティアの大規模言語モデルは学術モデルよりも優れたパフォーマンスを示しますが、依然として人間のパフォーマンスには 14.3% という大幅な精度の差がついています。
さらに、当社のパイプラインは、手作業なしで機械生成された 9,695 個のサンプルのトレーニング データセットを作成します。これは実証研究により、微調整によって時間にわたる推論を強化できることが示唆されています。

要約(オリジナル)

We introduce ReXTime, a benchmark designed to rigorously test AI models’ ability to perform temporal reasoning within video events. Specifically, ReXTime focuses on reasoning across time, i.e. human-like understanding when the question and its corresponding answer occur in different video segments. This form of reasoning, requiring advanced understanding of cause-and-effect relationships across video segments, poses significant challenges to even the frontier multimodal large language models. To facilitate this evaluation, we develop an automated pipeline for generating temporal reasoning question-answer pairs, significantly reducing the need for labor-intensive manual annotations. Our benchmark includes 921 carefully vetted validation samples and 2,143 test samples, each manually curated for accuracy and relevance. Evaluation results show that while frontier large language models outperform academic models, they still lag behind human performance by a significant 14.3% accuracy gap. Additionally, our pipeline creates a training dataset of 9,695 machine generated samples without manual effort, which empirical studies suggest can enhance the across-time reasoning via fine-tuning.

arxiv情報

著者 Jr-Jen Chen,Yu-Chien Liao,Hsi-Che Lin,Yu-Chu Yu,Yen-Chun Chen,Yu-Chiang Frank Wang
発行日 2024-06-27 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク