LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models

要約

この研究では、ビデオと画像を理解するためのビジョン言語モデル (VLM) におけるトークン生成の課題に取り組む、LLaMA-VID と呼ばれる新しい方法を紹介します。
現在の VLM は、画像キャプションや視覚的な質問応答などのタスクには熟練していますが、長いビデオを処理する場合、過度の視覚トークンによる計算負荷に直面しています。
LLaMA-VID は、各フレームを 2 つの異なるトークン、つまりコンテキスト トークンとコンテンツ トークンで表すことでこの問題に対処します。
コンテキスト トークンはユーザー入力に基づいて画像コンテキスト全体をエンコードするのに対し、コンテンツ トークンは各フレームの視覚的なキューをカプセル化します。
このデュアル トークン戦略により、重要な情報を維持しながら、長いビデオの過負荷が大幅に軽減されます。
一般に、LLaMA-VID は、既存のフレームワークが 1 時間のビデオをサポートできるようにし、追加のコンテキスト トークンでその上限を押し上げます。
ほとんどのビデオまたは画像ベースのベンチマークで以前の方法を上回ることが証明されています。
コードはhttps://github.com/dvlab-research/LLaMA-VID}{https://github.com/dvlab-research/LLaMA-VIDから入手できます。

要約(オリジナル)

In this work, we present a novel method to tackle the token generation challenge in Vision Language Models (VLMs) for video and image understanding, called LLaMA-VID. Current VLMs, while proficient in tasks like image captioning and visual question answering, face computational burdens when processing long videos due to the excessive visual tokens. LLaMA-VID addresses this issue by representing each frame with two distinct tokens, namely context token and content token. The context token encodes the overall image context based on user input, whereas the content token encapsulates visual cues in each frame. This dual-token strategy significantly reduces the overload of long videos while preserving critical information. Generally, LLaMA-VID empowers existing frameworks to support hour-long videos and pushes their upper limit with an extra context token. It is proved to surpass previous methods on most of video- or image-based benchmarks. Code is available https://github.com/dvlab-research/LLaMA-VID}{https://github.com/dvlab-research/LLaMA-VID

arxiv情報

著者 Yanwei Li,Chengyao Wang,Jiaya Jia
発行日 2023-11-28 18:53:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク