要約
Large Vision Language Models (LVLM) の進歩により、マルチモーダルの理解は大幅に向上しましたが、高品質で大規模なデータセットが不足しているため、ビデオ推論タスクには課題が残っています。
既存のビデオ質問応答 (VideoQA) データセットは、粒度が不十分なコストのかかる手動アノテーションや、冗長なフレームごとの分析による自動構築手法に依存していることが多く、複雑な推論に対する拡張性や有効性が制限されています。
これらの課題に対処するために、重要な空間的詳細と時間的一貫性を維持する VideoQA ペアと、中間推論ステップのマルチモーダル アノテーションを特徴とする新しいデータセットである VideoEspresso を導入します。
私たちの構築パイプラインでは、冗長性を削減するためにセマンティックを意識した方法を採用し、その後 GPT-4o を使用して QA ペアを生成します。
さらに、ビデオの思考連鎖 (CoT) アノテーションを開発して推論プロセスを強化し、QA ペアとビデオ コンテンツから論理関係を抽出する際に GPT-4o を導きます。
高品質の VideoQA ペアの可能性を活用するために、フレーム セレクターと 2 段階の命令で微調整された推論 LVLM を特徴とするハイブリッド LVLM コラボレーション フレームワークを提案します。
このフレームワークは、コア フレームを適応的に選択し、マルチモーダル証拠を使用して CoT 推論を実行します。
9 つの一般的な LVLM に対して 14 のタスクを使用して提案したベンチマークで評価したところ、私たちの手法はほとんどのタスクで既存のベースラインを上回り、優れたビデオ推論機能を実証しました。
コードとデータセットは https://github.com/hshjerry/VideoEspresso でリリースされます。
要約(オリジナル)
The advancement of Large Vision Language Models (LVLMs) has significantly improved multimodal understanding, yet challenges remain in video reasoning tasks due to the scarcity of high-quality, large-scale datasets. Existing video question-answering (VideoQA) datasets often rely on costly manual annotations with insufficient granularity or automatic construction methods with redundant frame-by-frame analysis, limiting their scalability and effectiveness for complex reasoning. To address these challenges, we introduce VideoEspresso, a novel dataset that features VideoQA pairs preserving essential spatial details and temporal coherence, along with multimodal annotations of intermediate reasoning steps. Our construction pipeline employs a semantic-aware method to reduce redundancy, followed by generating QA pairs using GPT-4o. We further develop video Chain-of-Thought (CoT) annotations to enrich reasoning processes, guiding GPT-4o in extracting logical relationships from QA pairs and video content. To exploit the potential of high-quality VideoQA pairs, we propose a Hybrid LVLMs Collaboration framework, featuring a Frame Selector and a two-stage instruction fine-tuned reasoning LVLM. This framework adaptively selects core frames and performs CoT reasoning using multimodal evidence. Evaluated on our proposed benchmark with 14 tasks against 9 popular LVLMs, our method outperforms existing baselines on most tasks, demonstrating superior video reasoning capabilities. Our code and dataset will be released at: https://github.com/hshjerry/VideoEspresso
arxiv情報
著者 | Songhao Han,Wei Huang,Hairong Shi,Le Zhuo,Xiu Su,Shifeng Zhang,Xu Zhou,Xiaojuan Qi,Yue Liao,Si Liu |
発行日 | 2024-11-22 08:33:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google