Slot-VLM: SlowFast Slots for Video-Language Modeling

要約

大規模言語モデル (LLM) の進歩を活用したビデオ言語モデル (VLM) は、ビデオ理解の新たな境地を開拓しています。
極めて重要な課題は、LLM に合わせてビデオ コンテンツを代表的なトークンのセットにカプセル化する効率的な方法の開発です。
この研究では、LLM 推論を容易にするために、オブジェクト単位およびイベント単位の視覚表現の観点から意味的に分解されたビデオ トークンを生成するように設計された新しいフレームワークである Slot-VLM を紹介します。
特に、CLIP ビジョン エンコーダからの高密度ビデオ トークンを代表的なスロットのセットに適応的に集約する SlowFast スロット モジュール、つまり SF スロットを設計します。
空間オブジェクトの詳細とさまざまな時間ダイナミクスの両方を考慮するために、SF スロットはデュアル ブランチ構造で構築されています。
Slow-Slots ブランチは、空間解像度は高いがフレーム サンプル レートが低い (遅い) フィーチャからオブジェクト中心のスロットを抽出することに焦点を当て、詳細なオブジェクト情報を強調します。
逆に、Fast-Slots ブランチは、時間サンプル レートは高いが空間解像度が低い機能からイベント中心のスロットを学習するように設計されています。
これらの相補的なスロットは結合されてビジョン コンテキストを形成し、効率的な質問応答のための LLM への入力として機能します。
私たちの実験結果は、ビデオ質問応答において最先端のパフォーマンスを実現する Slot-VLM の有効性を実証しています。

要約(オリジナル)

Video-Language Models (VLMs), powered by the advancements in Large Language Models (LLMs), are charting new frontiers in video understanding. A pivotal challenge is the development of an efficient method to encapsulate video content into a set of representative tokens to align with LLMs. In this work, we introduce Slot-VLM, a novel framework designed to generate semantically decomposed video tokens, in terms of object-wise and event-wise visual representations, to facilitate LLM inference. Particularly, we design a SlowFast Slots module, i.e., SF-Slots, that adaptively aggregates the dense video tokens from the CLIP vision encoder to a set of representative slots. In order to take into account both the spatial object details and the varied temporal dynamics, SF-Slots is built with a dual-branch structure. The Slow-Slots branch focuses on extracting object-centric slots from features at high spatial resolution but low (slow) frame sample rate, emphasizing detailed object information. Conversely, Fast-Slots branch is engineered to learn event-centric slots from high temporal sample rate but low spatial resolution features. These complementary slots are combined to form the vision context, serving as the input to the LLM for efficient question answering. Our experimental results demonstrate the effectiveness of our Slot-VLM, which achieves the state-of-the-art performance on video question-answering.

arxiv情報

著者 Jiaqi Xu,Cuiling Lan,Wenxuan Xie,Xuejin Chen,Yan Lu
発行日 2024-02-20 15:30:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク