要約
視覚言語の事前トレーニングにより、幅広い画像言語アプリケーションのパフォーマンスが大幅に向上しました。
しかし、ビデオ関連タスクの事前トレーニング プロセスには非常に大量の計算リソースとデータ リソースが必要であり、これがビデオ言語モデルの進歩を妨げています。
この論文では、高密度のビデオを理解するために既存の画像言語の事前トレーニング済みモデルを適応させるための、単純で効率性が高く、リソースが少ないアプローチを調査します。
私たちの予備実験では、ビデオ データセットの入力として複数のフレームを使用して事前トレーニング済み画像言語モデルを直接微調整すると、パフォーマンスが飽和したり、低下したりする可能性があることが明らかになりました。
私たちのさらなる調査により、これは学習された高規範の視覚的特徴の偏りに主に起因していることが明らかになりました。
この発見に動機付けられて、我々は、時間次元に沿って特徴分布を平滑化し、極端な特徴からの支配的な影響を軽減するための、シンプルだが効果的なプーリング戦略を提案する。
新しいモデルは、Pooling LLaVA (略して PLLaVA) と呼ばれます。
PLLaVA は、ビデオの質問と回答とキャプションのタスクの両方について、最新のベンチマーク データセットで新しい最先端のパフォーマンスを実現します。
特に、最近人気のある VideoChatGPT ベンチマークでは、PLLaVA は 5 つの評価ディメンションの平均で 5 点満点中 3.48 のスコアを達成し、GPT4V (IG-VLM) による以前の SOTA 結果を 9% 上回っています。
最新の多肢選択ベンチマーク MVBench では、PLLaVA は 20 のサブタスク全体で平均 58.1% の精度を達成し、GPT4V (IG-VLM) より 14.5% 高い精度を達成しました。
コードは https://pllava.github.io/ で入手できます。
要約(オリジナル)
Vision-language pre-training has significantly elevated performance across a wide range of image-language applications. Yet, the pre-training process for video-related tasks demands exceptionally large computational and data resources, which hinders the progress of video-language models. This paper investigates a straight-forward, highly efficient, and resource-light approach to adapting an existing image-language pre-trained model for dense video understanding. Our preliminary experiments reveal that directly fine-tuning pre-trained image-language models with multiple frames as inputs on video datasets leads to performance saturation or even a drop. Our further investigation reveals that it is largely attributed to the bias of learned high-norm visual features. Motivated by this finding, we propose a simple but effective pooling strategy to smooth the feature distribution along the temporal dimension and thus reduce the dominant impacts from the extreme features. The new model is termed Pooling LLaVA, or PLLaVA in short. PLLaVA achieves new state-of-the-art performance on modern benchmark datasets for both video question-answer and captioning tasks. Notably, on the recent popular VideoChatGPT benchmark, PLLaVA achieves a score of 3.48 out of 5 on average of five evaluated dimensions, exceeding the previous SOTA results from GPT4V (IG-VLM) by 9%. On the latest multi-choice benchmark MVBench, PLLaVA achieves 58.1% accuracy on average across 20 sub-tasks, 14.5% higher than GPT4V (IG-VLM). Code is available at https://pllava.github.io/
arxiv情報
著者 | Lin Xu,Yilin Zhao,Daquan Zhou,Zhijie Lin,See Kiong Ng,Jiashi Feng |
発行日 | 2024-04-29 14:52:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google