Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

要約

Large Vision-Language Model (LVLM) は、視覚言語理解におけるさまざまな下流タスクのパフォーマンスを強化しました。
既存のアプローチのほとんどは、画像とビデオを別個の特徴空間にエンコードし、それらを入力として大規模な言語モデルに供給します。
ただし、画像とビデオの統一されたトークン化の欠如、つまり投影前の位置ずれのため、大規模言語モデル (LLM) がいくつかの貧弱な投影レイヤーからマルチモーダル インタラクションを学習することが困難になります。
この作業では、視覚表現を言語機能空間に統合して、基礎的な LLM を統合 LVLM に向けて前進させます。
その結果、画像とビデオの混合データセットから学習し、相互に強化し合う、シンプルだが堅牢な LVLM ベースライン Video-LLaVA を確立しました。
Video-LLaVA は、5 つの画像質問応答データセットと 4 つの画像ベンチマーク ツールキットにわたる 9 つの画像ベンチマークの幅広い範囲で優れたパフォーマンスを達成します。
さらに、当社の Video-LLaVA は、MSRVTT、MSVD、TGIF、ActivityNet においてそれぞれ Video-ChatGPT を 5.8%、9.9%、18.6%、10.1% 上回っています。
特に、広範な実験により、Video-LLaVA が統一された視覚表現内で画像とビデオに相互に利益をもたらし、画像またはビデオ専用に設計されたモデルを上回るパフォーマンスを発揮することが実証されています。
私たちはこの研究で、LLM のマルチモーダル入力についての適度な洞察を提供することを目指しています。
コードアドレス: \href{https://github.com/PKU-YuanGroup/Video-LLaVA}

要約(オリジナル)

The Large Vision-Language Model (LVLM) has enhanced the performance of various downstream tasks in visual-language understanding. Most existing approaches encode images and videos into separate feature spaces, which are then fed as inputs to large language models. However, due to the lack of unified tokenization for images and videos, namely misalignment before projection, it becomes challenging for a Large Language Model (LLM) to learn multi-modal interactions from several poor projection layers. In this work, we unify visual representation into the language feature space to advance the foundational LLM towards a unified LVLM. As a result, we establish a simple but robust LVLM baseline, Video-LLaVA, which learns from a mixed dataset of images and videos, mutually enhancing each other. Video-LLaVA achieves superior performances on a broad range of 9 image benchmarks across 5 image question-answering datasets and 4 image benchmark toolkits. Additionally, our Video-LLaVA also outperforms Video-ChatGPT by 5.8%, 9.9%, 18.6%, and 10.1% on MSRVTT, MSVD, TGIF, and ActivityNet, respectively. Notably, extensive experiments demonstrate that Video-LLaVA mutually benefits images and videos within a unified visual representation, outperforming models designed specifically for images or videos. We aim for this work to provide modest insights into the multi-modal inputs for the LLM. Code address: \href{https://github.com/PKU-YuanGroup/Video-LLaVA}

arxiv情報

著者 Bin Lin,Yang Ye,Bin Zhu,Jiaxi Cui,Munan Ning,Peng Jin,Li Yuan
発行日 2024-10-01 12:07:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク