要約
1時間のビデオでの情報検索は、特に目的の情報がフレームの小さなサブセット内にローカライズされている場合でも、最先端のビジョン言語モデル(VLM)であっても、重要な課題です。
長いビデオデータは、コンテキストウィンドウの制限と、答えを含むフレームを特定することの難しさにより、VLMの課題を提示します。
私たちの新しいビデオエージェントであるFalconeyeは、VLMと大規模な言語モデル(LLM)を組み合わせて、ビデオに沿って関連情報を検索し、答えでフレームを見つけます。
Falconeyeのノベルティは、1)提案されたメタアーキテクチャに依存しています。
2)短いクリップ、キャプションを使用して情報を見つけ、自信に応答する新しい効率的な探索アルゴリズム。
3)答えの自信のための最先端のVLMSキャリブレーション分析。
当社のエージェントは、標準の計算リソースで実行できる小型のVLMと中型LLMにアクセスできるように構築されています。
また、長い(平均> 1時間)ビデオ回答検索の課題を評価するためのベンチマークであるFalcon-Benchをリリースし、自由回答形式の質問評価の必要性を強調しています。
私たちの実験は、Falconeeの最先端のファルコンベンチよりもFalconeyeの優れたパフォーマンスを示しており、関連ベンチマークでも同様のパフォーマンスがあります。
要約(オリジナル)
Information retrieval in hour-long videos presents a significant challenge, even for state-of-the-art Vision-Language Models (VLMs), particularly when the desired information is localized within a small subset of frames. Long video data presents challenges for VLMs due to context window limitations and the difficulty of pinpointing frames containing the answer. Our novel video agent, FALCONEye, combines a VLM and a Large Language Model (LLM) to search relevant information along the video, and locate the frames with the answer. FALCONEye novelty relies on 1) the proposed meta-architecture, which is better suited to tackle hour-long videos compared to short video approaches in the state-of-the-art; 2) a new efficient exploration algorithm to locate the information using short clips, captions and answer confidence; and 3) our state-of-the-art VLMs calibration analysis for the answer confidence. Our agent is built over a small-size VLM and a medium-size LLM being accessible to run on standard computational resources. We also release FALCON-Bench, a benchmark to evaluate long (average > 1 hour) Video Answer Search challenges, highlighting the need for open-ended question evaluation. Our experiments show FALCONEye’s superior performance than the state-of-the-art in FALCON-Bench, and similar or better performance in related benchmarks.
arxiv情報
著者 | Carlos Plou,Cesar Borja,Ruben Martinez-Cantin,Ana C. Murillo |
発行日 | 2025-03-25 17:17:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google