要約
大規模言語モデル (LLM) の成功により、ビジョン モデルを LLM に統合してビジョン言語基盤モデルを構築することへの関心が最近さらに高まっています。
ただし、既存の LLM ベースの大規模マルチモーダル モデル (Video-LLaMA、VideoChat など) は、短いビデオを理解するために限られた数のフレームしか取り込むことができません。
この研究では、長期的なビデオ理解のための効率的かつ効果的なモデルを設計することに主に焦点を当てています。
既存のほとんどの作品のように、より多くのフレームを同時に処理しようとするのではなく、オンラインでビデオを処理し、過去のビデオ情報をメモリ バンクに保存することを提案します。
これにより、LLM のコンテキスト長の制約や GPU メモリの制限を超えることなく、モデルが長期分析のために過去のビデオ コンテンツを参照できるようになります。
当社のメモリ バンクは、既製の方法で現在のマルチモーダル LLM にシームレスに統合できます。
私たちは、長時間のビデオの理解、ビデオの質問応答、ビデオのキャプション付けなど、さまざまなビデオ理解タスクについて広範な実験を行っており、私たちのモデルは複数のデータセットにわたって最先端のパフォーマンスを達成できます。
コードは https://boheumd.github.io/MA-LMM/ で入手できます。
要約(オリジナル)
With the success of large language models (LLMs), integrating the vision model into LLMs to build vision-language foundation models has gained much more interest recently. However, existing LLM-based large multimodal models (e.g., Video-LLaMA, VideoChat) can only take in a limited number of frames for short video understanding. In this study, we mainly focus on designing an efficient and effective model for long-term video understanding. Instead of trying to process more frames simultaneously like most existing work, we propose to process videos in an online manner and store past video information in a memory bank. This allows our model to reference historical video content for long-term analysis without exceeding LLMs’ context length constraints or GPU memory limits. Our memory bank can be seamlessly integrated into current multimodal LLMs in an off-the-shelf manner. We conduct extensive experiments on various video understanding tasks, such as long-video understanding, video question answering, and video captioning, and our model can achieve state-of-the-art performances across multiple datasets. Code available at https://boheumd.github.io/MA-LMM/.
arxiv情報
著者 | Bo He,Hengduo Li,Young Kyun Jang,Menglin Jia,Xuefei Cao,Ashish Shah,Abhinav Shrivastava,Ser-Nam Lim |
発行日 | 2024-04-08 17:59:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google