VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation

要約

大規模なビジョン言語モデル (GPT-4、LLaVA など) におけるよく知られたジレンマは、ビジョン トークンの数を増やすと一般に視覚的な理解が向上する一方で、特に長期的で高密度な場合にメモリと計算コストが大幅に増加することです。
ビデオ フレーム ストリーミング シナリオ。
Q-Former や Perceiver Resampler などの学習可能なアプローチは、ビジョン トークンの負担を軽減するために開発されていますが、LLM によって因果的にモデル化されたコンテキスト (つまり、キーと値のキャッシュ) を見落としているため、ユーザーのクエリに対処するときに視覚的な手がかりを見逃してしまう可能性があります。
このペーパーでは、ビジョン トークンの数を減らすのではなく、冗長なビジョン トークンを「層をスキップ」して活用することで、ビジョン コンピューティングを削減する新しいアプローチを紹介します。
私たちの手法である VideoLLM-MoD は、深さの混合 LLM からインスピレーションを受けており、長期ビデオまたはストリーミング ビデオにおける多数のビジョン トークンの課題に対処します。
具体的には、トランスフォーマー層ごとに、ビジョン トークンの大部分 (80% など) の計算をスキップし、それらを次の層に直接渡す方法を学習します。
このアプローチによりモデルの効率が大幅に向上し、トレーニング全体で約 \textasciitilde42\% の時間と \textasciitilde30\% のメモリの節約が達成されます。
さらに、私たちの方法はコンテキストでの計算を削減し、ビジョントークンの減少を回避するため、バニラモデルと比較してパフォーマンスを維持または向上させることさえできます。
VideoLLM-MoD の有効性を実証するために広範な実験を実施し、COIN、Ego4D、および Ego-Exo4D データセットのナレーション、予測、要約タスクを含む複数のベンチマークで最先端の結果を示しています。

要約(オリジナル)

A well-known dilemma in large vision-language models (e.g., GPT-4, LLaVA) is that while increasing the number of vision tokens generally enhances visual understanding, it also significantly raises memory and computational costs, especially in long-term, dense video frame streaming scenarios. Although learnable approaches like Q-Former and Perceiver Resampler have been developed to reduce the vision token burden, they overlook the context causally modeled by LLMs (i.e., key-value cache), potentially leading to missed visual cues when addressing user queries. In this paper, we introduce a novel approach to reduce vision compute by leveraging redundant vision tokens ‘skipping layers’ rather than decreasing the number of vision tokens. Our method, VideoLLM-MoD, is inspired by mixture-of-depths LLMs and addresses the challenge of numerous vision tokens in long-term or streaming video. Specifically, for each transformer layer, we learn to skip the computation for a high proportion (e.g., 80\%) of vision tokens, passing them directly to the next layer. This approach significantly enhances model efficiency, achieving approximately \textasciitilde42\% time and \textasciitilde30\% memory savings for the entire training. Moreover, our method reduces the computation in the context and avoid decreasing the vision tokens, thus preserving or even improving performance compared to the vanilla model. We conduct extensive experiments to demonstrate the effectiveness of VideoLLM-MoD, showing its state-of-the-art results on multiple benchmarks, including narration, forecasting, and summarization tasks in COIN, Ego4D, and Ego-Exo4D datasets.

arxiv情報

著者 Shiwei Wu,Joya Chen,Kevin Qinghong Lin,Qimeng Wang,Yan Gao,Qianli Xu,Tong Xu,Yao Hu,Enhong Chen,Mike Zheng Shou
発行日 2024-08-29 17:21:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク