Understanding Long Videos via LLM-Powered Entity Relation Graphs

要約

拡張されたビデオコンテンツの分析は、特に時間をかけて視覚的要素を追跡し、理解するという複雑さを扱う場合、人工知能にユニークな課題をもたらします。
ビデオフレームを処理する現在の方法論は、特にこれらのオブジェクトが一時的に消滅し、その後映像に再び現れるときに、オブジェクトのコヒーレントな追跡を維持するのに順番に苦労しています。
これらのアプローチの重要な制限は、主に時間的関係を把握しているため、ビデオの重要な瞬間を効果的に特定できないことです。
これらの障害を克服するために、GraphVideoagentを提示します。これは、グラフベースのオブジェクト追跡の力を大規模な言語モデル機能と組み合わせて活用する最先端のシステムです。
そのコアでは、私たちのフレームワークは、ビデオシーケンス全体で視覚エンティティ間の進化する関係をマップおよび監視する動的なグラフ構造を採用しています。
この革新的なアプローチにより、オブジェクトが時間とともにどのように相互作用し、変換されるかをより微妙な理解により、包括的なコンテキスト認識を通じてフレーム選択の改善を促進できます。
私たちのアプローチは、業界のベンチマークに対してテストされたときに顕著な有効性を示しています。
Egoschema Datasetの評価では、GraphVideoagentは既存の方法よりも2.2の改善を達成し、平均8.2フレームの分析を必要としました。
同様に、次のQAベンチマークでテストすると、平均フレーム要件が8.1で2.0のパフォーマンスが増加しました。
これらの結果は、長型のビデオ理解タスクにおける精度と計算パフォーマンスの両方を強化する上で、グラフ誘導方法の効率を強調しています。

要約(オリジナル)

The analysis of extended video content poses unique challenges in artificial intelligence, particularly when dealing with the complexity of tracking and understanding visual elements across time. Current methodologies that process video frames sequentially struggle to maintain coherent tracking of objects, especially when these objects temporarily vanish and later reappear in the footage. A critical limitation of these approaches is their inability to effectively identify crucial moments in the video, largely due to their limited grasp of temporal relationships. To overcome these obstacles, we present GraphVideoAgent, a cutting-edge system that leverages the power of graph-based object tracking in conjunction with large language model capabilities. At its core, our framework employs a dynamic graph structure that maps and monitors the evolving relationships between visual entities throughout the video sequence. This innovative approach enables more nuanced understanding of how objects interact and transform over time, facilitating improved frame selection through comprehensive contextual awareness. Our approach demonstrates remarkable effectiveness when tested against industry benchmarks. In evaluations on the EgoSchema dataset, GraphVideoAgent achieved a 2.2 improvement over existing methods while requiring analysis of only 8.2 frames on average. Similarly, testing on the NExT-QA benchmark yielded a 2.0 performance increase with an average frame requirement of 8.1. These results underscore the efficiency of our graph-guided methodology in enhancing both accuracy and computational performance in long-form video understanding tasks.

arxiv情報

著者 Meng Chu,Yicong Li,Tat-Seng Chua
発行日 2025-01-27 10:57:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR パーマリンク