OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer

要約

大規模言語モデル (LLM) の最近の進歩により、その機能は包括的なビデオの理解など、マルチモーダルなコンテキストにまで拡張されました。
ただし、24 時間監視カメラの映像や長編映画などの大規模なビデオの処理には、膨大なデータと処理の需要があるため、大きな課題が生じます。
キーフレームの抽出やフレームのテキストへの変換などの従来の方法では、多くの場合、大幅な情報損失が発生します。
これらの欠点に対処するために、当社は OmAgent を開発し、特定のクエリに関連するビデオ フレームを効率的に保存および取得し、ビデオの詳細なコンテンツを保存します。
さらに、自律的な推論が可能な分割統治ループを備え、API とツールを動的に呼び出してクエリの処理と精度を向上させます。
このアプローチにより、確実なビデオ理解が保証され、情報損失が大幅に軽減されます。
実験結果は、さまざまな種類のビデオや複雑なタスクの処理における OmAgent の有効性を裏付けています。
さらに、より優れた自律性と堅牢なツール呼び出しシステムを与え、さらに複雑なタスクを実行できるようにしました。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have expanded their capabilities to multimodal contexts, including comprehensive video understanding. However, processing extensive videos such as 24-hour CCTV footage or full-length films presents significant challenges due to the vast data and processing demands. Traditional methods, like extracting key frames or converting frames to text, often result in substantial information loss. To address these shortcomings, we develop OmAgent, efficiently stores and retrieves relevant video frames for specific queries, preserving the detailed content of videos. Additionally, it features an Divide-and-Conquer Loop capable of autonomous reasoning, dynamically invoking APIs and tools to enhance query processing and accuracy. This approach ensures robust video understanding, significantly reducing information loss. Experimental results affirm OmAgent’s efficacy in handling various types of videos and complex tasks. Moreover, we have endowed it with greater autonomy and a robust tool-calling system, enabling it to accomplish even more intricate tasks.

arxiv情報

著者 Lu Zhang,Tiancheng Zhao,Heting Ying,Yibo Ma,Kyusong Lee
発行日 2024-06-24 13:05:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク