Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding

要約

マルチモーダル大手言語モデル(MLLM)をビデオ理解に適用することは、フレーム間の時間的関係をモデル化する必要性により、重要な課題を提示します。
既存のアプローチは、LLMデコーダーのみに依存する暗黙の時間モデリング、または補助時間エンコーダを採用した明示的な時間モデリングのいずれかを採用しています。
2つのパラダイム間のこの議論を調査するために、積み重ね可能な時間エンコーダ(STE)を提案します。
STEは、調整可能な時間受容フィールドとトークン圧縮比を使用して、柔軟な明示的な時間モデリングを可能にします。
STEを使用して、全体的なパフォーマンス、トークン圧縮有効性、時間固有の理解などの次元間で暗黙的および明示的な時間モデリングを体系的に比較します。
また、STEの設計上の考慮事項と、プラグインモジュールとして、および画像モダリティとしてのより広範な影響についても調査します。
私たちの調査結果は、明示的な時間モデリングの重要な役割を強調し、ビデオMLLMを進めるための実用的な洞察を提供します。

要約(オリジナル)

Applying Multimodal Large Language Models (MLLMs) to video understanding presents significant challenges due to the need to model temporal relations across frames. Existing approaches adopt either implicit temporal modeling, relying solely on the LLM decoder, or explicit temporal modeling, employing auxiliary temporal encoders. To investigate this debate between the two paradigms, we propose the Stackable Temporal Encoder (STE). STE enables flexible explicit temporal modeling with adjustable temporal receptive fields and token compression ratios. Using STE, we systematically compare implicit and explicit temporal modeling across dimensions such as overall performance, token compression effectiveness, and temporal-specific understanding. We also explore STE’s design considerations and broader impacts as a plug-in module and in image modalities. Our findings emphasize the critical role of explicit temporal modeling, providing actionable insights to advance video MLLMs.

arxiv情報

著者 Yun Li,Zhe Liu,Yajing Kong,Guangrui Li,Jiyuan Zhang,Chao Bian,Feng Liu,Lina Yao,Zhenbang Sun
発行日 2025-01-28 08:30:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク