要約
長型のビデオ理解は、広範な時間空間的な複雑さと、そのような拡張されたコンテキストの下で質問する質問の難しさのために、重要な課題を提示します。
大規模な言語モデル(LLM)は、ビデオ分析機能と長いコンテキスト処理のかなりの進歩を実証していますが、情報密度の高い1時間のビデオを処理する際には引き続き制限を示し続けています。
このような制限を克服するために、ディープビデオディスカバリーエージェントがセグメント化されたビデオクリップよりもエージェント検索戦略を活用することを提案します。
以前のビデオエージェントが手動で剛性のあるワークフローを設計することとは異なり、私たちのアプローチはエージェントの自律的な性質を強調しています。
多粒ビデオデータベースで一連の検索中心のツールを提供することにより、当社のDVDエージェントはLLMの高度な推論能力を活用して現在の観察状態を計画し、ツールを戦略的に選択し、アクションの適切なパラメーターを策定し、収集された情報の光の中で内部推論を繰り返し改善します。
システム設計全体の利点を示す複数の長いビデオ理解ベンチマークで包括的な評価を実行します。
DVDエージェントはSOTAパフォーマンスを達成し、挑戦的なLVBenchデータセットの大きなマージンで以前の作業を大幅に上回ります。
包括的なアブレーション研究と詳細なツール分析も提供されており、長期のビデオ理解タスクに合わせて調整されたインテリジェントエージェントをさらに進めるための洞察をもたらします。
コードは後でリリースされます。
要約(オリジナル)
Long-form video understanding presents significant challenges due to extensive temporal-spatial complexity and the difficulty of question answering under such extended contexts. While Large Language Models (LLMs) have demonstrated considerable advancements in video analysis capabilities and long context handling, they continue to exhibit limitations when processing information-dense hour-long videos. To overcome such limitations, we propose the Deep Video Discovery agent to leverage an agentic search strategy over segmented video clips. Different from previous video agents manually designing a rigid workflow, our approach emphasizes the autonomous nature of agents. By providing a set of search-centric tools on multi-granular video database, our DVD agent leverages the advanced reasoning capability of LLM to plan on its current observation state, strategically selects tools, formulates appropriate parameters for actions, and iteratively refines its internal reasoning in light of the gathered information. We perform comprehensive evaluation on multiple long video understanding benchmarks that demonstrates the advantage of the entire system design. Our DVD agent achieves SOTA performance, significantly surpassing prior works by a large margin on the challenging LVBench dataset. Comprehensive ablation studies and in-depth tool analyses are also provided, yielding insights to further advance intelligent agents tailored for long-form video understanding tasks. The code will be released later.
arxiv情報
著者 | Xiaoyi Zhang,Zhaoyang Jia,Zongyu Guo,Jiahao Li,Bin Li,Houqiang Li,Yan Lu |
発行日 | 2025-05-23 16:37:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google