From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding

要約

最近、ラージ言語モデル (LLM) とビジュアル エンコーダーの統合により、人間のようなテキストを理解して視覚的に推論するための本来の能力を活用して、視覚理解タスクにおいて有望なパフォーマンスが示されています。
視覚データの多様な性質を考慮すると、マルチモーダル大規模言語モデル (MM-LLM) は、画像、短いビデオ、および長いビデオを理解するためのモデル設計とトレーニングにバリエーションを示します。
私たちの論文では、静止画像や短いビデオの理解と比較した、長いビデオの理解によってもたらされる大きな違いと特有の課題に焦点を当てています。
静止画像とは異なり、短いビデオには空間情報とイベント内の時間情報の両方を含む連続フレームが含まれますが、長いビデオはイベント間および長期の時間情報を含む複数のイベントで構成されます。
この調査では、画像理解から長時間ビデオ理解までの MM-LLM の進歩を追跡し、要約することを目的としています。
さまざまな視覚的理解タスク間の違いを検討し、よりきめの細かい時空間の詳細、動的イベント、長期的な依存関係など、長時間ビデオの理解における課題を浮き彫りにします。
次に、長いビデオを理解するためのモデル設計とトレーニング方法論に関する MM-LLM の進歩の詳細な概要を提供します。
最後に、さまざまな長さのビデオ理解ベンチマークにおける既存の MM-LLM のパフォーマンスを比較し、長時間ビデオ理解における MM-LLM の将来の可能性について説明します。

要約(オリジナル)

The integration of Large Language Models (LLMs) with visual encoders has recently shown promising performance in visual understanding tasks, leveraging their inherent capability to comprehend and generate human-like text for visual reasoning. Given the diverse nature of visual data, MultiModal Large Language Models (MM-LLMs) exhibit variations in model designing and training for understanding images, short videos, and long videos. Our paper focuses on the substantial differences and unique challenges posed by long video understanding compared to static image and short video understanding. Unlike static images, short videos encompass sequential frames with both spatial and within-event temporal information, while long videos consist of multiple events with between-event and long-term temporal information. In this survey, we aim to trace and summarize the advancements of MM-LLMs from image understanding to long video understanding. We review the differences among various visual understanding tasks and highlight the challenges in long video understanding, including more fine-grained spatiotemporal details, dynamic events, and long-term dependencies. We then provide a detailed summary of the advancements in MM-LLMs in terms of model design and training methodologies for understanding long videos. Finally, we compare the performance of existing MM-LLMs on video understanding benchmarks of various lengths and discuss potential future directions for MM-LLMs in long video understanding.

arxiv情報

著者 Heqing Zou,Tianze Luo,Guiyang Xie,Victor,Zhang,Fengmao Lv,Guangcong Wang,Juanyang Chen,Zhuochen Wang,Hansheng Zhang,Huaijian Zhang
発行日 2024-09-27 17:38:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク