DrVideo: Document Retrieval Based Long Video Understanding

要約

長いビデオを理解するための既存の方法は、主に数十秒しか続かないビデオに焦点を当てており、より長いビデオを処理するための技術の探索は限られています。
長いビデオでフレーム数が増加すると、重要な情報を見つけることと、長期的な推論を実行することが困難になるという 2 つの主な課題が生じます。
そこで、我々は、長時間のビデオを理解するために設計されたドキュメント検索ベースのシステムである DrVideo を提案します。
私たちの重要なアイデアは、大規模な言語モデルの力を効果的に活用するために、長いビデオの理解の問題を長いドキュメントの理解タスクに変換することです。
具体的には、DrVideo は長いビデオをテキストベースの長いドキュメントに変換して、最初にキー フレームを取得し、これらのフレームの情報を拡張します。これがシステムの開始点として使用されます。
次に、エージェントベースの反復ループを使用して、不足している情報を継続的に検索し、関連データを補強し、十分な質問関連情報が収集されると、思考連鎖方式で最終的な予測を提供します。
長いビデオのベンチマークに関する広範な実験により、私たちの手法の有効性が確認されました。
DrVideo は、EgoSchema ベンチマーク (3 分) で +3.8、MovieChat-1K ブレーク モードで +17.9、MovieChat-1K グローバル モード (10 分) で +38.0、および +30.2 の精度で、既存の最先端の手法を上回ります。
LLama-Vid QA データセット (60 分以上)。

要約(オリジナル)

Existing methods for long video understanding primarily focus on videos only lasting tens of seconds, with limited exploration of techniques for handling longer videos. The increased number of frames in longer videos presents two main challenges: difficulty in locating key information and performing long-range reasoning. Thus, we propose DrVideo, a document-retrieval-based system designed for long video understanding. Our key idea is to convert the long-video understanding problem into a long-document understanding task so as to effectively leverage the power of large language models. Specifically, DrVideo transforms a long video into a text-based long document to initially retrieve key frames and augment the information of these frames, which is used this as the system’s starting point. It then employs an agent-based iterative loop to continuously search for missing information, augment relevant data, and provide final predictions in a chain-of-thought manner once sufficient question-related information is gathered. Extensive experiments on long video benchmarks confirm the effectiveness of our method. DrVideo outperforms existing state-of-the-art methods with +3.8 accuracy on EgoSchema benchmark (3 minutes), +17.9 in MovieChat-1K break mode, +38.0 in MovieChat-1K global mode (10 minutes), and +30.2 on the LLama-Vid QA dataset (over 60 minutes).

arxiv情報

著者 Ziyu Ma,Chenhui Gou,Hengcan Shi,Bin Sun,Shutao Li,Hamid Rezatofighi,Jianfei Cai
発行日 2024-06-18 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク