Understanding Long Videos with Multimodal Language Models

要約

大規模言語モデル (LLM) により、最近の LLM ベースのアプローチが長時間ビデオ理解ベンチマークで優れたパフォーマンスを達成できるようになりました。
私たちは、基礎となる LLM の広範な世界知識と強力な推論スキルがこの優れたパフォーマンスにどのように影響するかを調査します。
驚いたことに、LLM ベースのアプローチでは、限られたビデオ情報、場合によってはビデオ固有の情報がない場合でも、長時間のビデオ タスクで驚くほど高い精度が得られることがわかりました。
これに基づいて、ビデオ固有の情報を LLM ベースのフレームワークに注入することを検討しています。
私たちは、既製のビジョン ツールを利用して、ビデオから 3 つのオブジェクト中心の情報モダリティを抽出し、この情報を融合する媒体として自然言語を活用します。
結果として得られたマルチモーダル ビデオ理解 (MVU) フレームワークは、複数のビデオ理解ベンチマークにわたって最先端のパフォーマンスを実証します。
ロボット分野のタスクでも優れたパフォーマンスを発揮し、強力な汎用性を確立します。
私たちのコードは公開されます。

要約(オリジナル)

Large Language Models (LLMs) have allowed recent LLM-based approaches to achieve excellent performance on long-video understanding benchmarks. We investigate how extensive world knowledge and strong reasoning skills of underlying LLMs influence this strong performance. Surprisingly, we discover that LLM-based approaches can yield surprisingly good accuracy on long-video tasks with limited video information, sometimes even with no video specific information. Building on this, we exploring injecting video-specific information into an LLM-based framework. We utilize off-the-shelf vision tools to extract three object-centric information modalities from videos and then leverage natural language as a medium for fusing this information. Our resulting Multimodal Video Understanding (MVU) framework demonstrates state-of-the-art performance across multiple video understanding benchmarks. Strong performance also on robotics domain tasks establish its strong generality. Our code will be released publicly.

arxiv情報

著者 Kanchana Ranasinghe,Xiang Li,Kumara Kahatapitiya,Michael S. Ryoo
発行日 2024-11-11 17:56:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク