LVCHAT: Facilitating Long Video Comprehension

要約

大規模言語モデル (LLM) でビデオを読み取れるようにすることは、マルチモーダル LLM にとって不可欠です。
既存の作品は、短いビデオでは有望ですが、長いビデオ(たとえば、〜 1 分以上)を理解するのは依然として困難です。
主な問題は、ビデオの過剰圧縮にあります。つまり、エンコードされたビデオ表現ではビデオ全体を表すのに十分ではありません。
この問題に対処するために、私たちは Long Video Chat (LVChat) を提案します。そこでは、フレーム スケーラブル エンコーディング (FSE) が導入され、ビデオの長さに合わせて埋め込みの数を動的に調整し、長いビデオがいくつかの部分に過度に圧縮されないようにします。
埋め込み。
トレーニング中に表示されるビデオを超える長さのビデオに対処するために、インターリーブ フレーム エンコーディング (IFE) を提案します。インターリーブ フレーム エンコーディング (IFE) では、複数のビデオ グループの位置埋め込みとインターリーブを繰り返して、長いビデオ入力を可能にし、長すぎるビデオによるパフォーマンスの低下を回避します。
実験結果は、LVChat が、長時間ビデオ QA データセットおよび長時間ビデオ キャプション ベンチマークの精度において、既存の方法よりも最大 27\% 大幅に優れていることを示しています。
私たちのコードは https://github.com/wangyu-ustc/LVChat で公開されています。

要約(オリジナル)

Enabling large language models (LLMs) to read videos is vital for multimodal LLMs. Existing works show promise on short videos whereas long video (longer than e.g.~1 minute) comprehension remains challenging. The major problem lies in the over-compression of videos, i.e., the encoded video representations are not enough to represent the whole video. To address this issue, we propose Long Video Chat (LVChat), where Frame-Scalable Encoding (FSE) is introduced to dynamically adjust the number of embeddings in alignment with the duration of the video to ensure long videos are not overly compressed into a few embeddings. To deal with long videos whose length is beyond videos seen during training, we propose Interleaved Frame Encoding (IFE), repeating positional embedding and interleaving multiple groups of videos to enable long video input, avoiding performance degradation due to overly long videos. Experimental results show that LVChat significantly outperforms existing methods by up to 27\% in accuracy on long-video QA datasets and long-video captioning benchmarks. Our code is published at https://github.com/wangyu-ustc/LVChat.

arxiv情報

著者 Yu Wang,Zeyuan Zhang,Julian McAuley,Zexue He
発行日 2024-02-19 11:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク