Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

要約

Video-LLaMAは、Large Language Models(LLM)にビデオ内の視覚と聴覚の両方を理解する能力を与えるマルチモーダルフレームワークである。Video-LLaMAは、事前に訓練された視覚・聴覚エンコーダとLLMからクロスモーダルな訓練をブートストラップします。MiniGPT-4~zhu2023minigpt}やLLaVA~liu2023visualit}のような静的画像理解に焦点を当てた従来の視覚LLMとは異なり、Video-LaMAはビデオ理解における2つの課題に取り組んでいる:(1)視覚シーンの時間変化の把握、(2)視聴覚信号の統合。最初の課題に対しては、事前に学習した画像エンコーダをビデオエンコーダに拡張するビデオQ-formerを提案し、ビデオと言語の対応を学習するビデオ-テキスト生成タスクを導入することである。2つ目の課題では、異なるモダリティを共通の埋め込み空間に整合させるのに非常に優れた事前学習済みオーディオエンコーダとして、ImageBind~citep{girdhar2023imagebind}を利用する。そして、聴覚的なクエリートークンを学習するために、Audio Q-formerを導入する。視覚エンコーダと音声エンコーダの出力をLLMの埋め込み空間に合わせるために、大規模な視覚キャプションデータセットと高容量の視覚インストラクションチューニングデータセットでVideo-LaMAを訓練する。その結果、Video-LLaMAは動画コンテンツを知覚・理解する能力を示し、動画に含まれる視覚・聴覚情報に基づいた意味のある応答を生成することがわかりました。これは、Video-LLaMAがオーディオビジュアルAIアシスタントのプロトタイプとして有望であることを強調しています。私たちのコード、事前学習済みモデル、およびデモは、⽋⽋⽋に掲載されています。

要約(オリジナル)

We present Video-LLaMA, a multi-modal framework that empowers Large Language Models (LLMs) with the capability of understanding both visual and auditory content in the video. Video-LLaMA bootstraps cross-modal training from the frozen pre-trained visual \& audio encoders and the frozen LLMs. Unlike previous vision- LLMs that focus on static image comprehensions such as MiniGPT-4~\citep{zhu2023minigpt} and LLaVA~\citep{liu2023visualit}, Video-LLaMA tackles two challenges in video understanding: (1) capturing the temporal changes in visual scenes, (2) integrating audio-visual signals. For the first challenge, we propose Video Q-former to extend the pre-trained image encoder to a video encoder and introduce a video-to-text generation task to learn video-language correspondence. For the second challenge, we leverage ImageBind~\citep{girdhar2023imagebind} as the pre-trained audio encoder which performs exceptionally well in aligning different modalities to a common embedding space. And then introduce an Audio Q-former to learn auditory query tokens. To align the output of both visual \& audio encoder with LLM’s embedding space, we train Video-LLaMA on a large-scale vision caption dataset and a hign-quantity vision-instruction-tuning dataset. We found Video-LLaMA showcases the ability to perceive and comprehend video content, generating meaningful responses that are grounded in the visual and auditory information present in the videos. This highlights the potential of Video-LLaMA as a promising prototype for audio-visual AI assistants. Our code, pre-trained model, and demo are available at \url{https://github.com/DAMO-NLP-SG/Video-LLaMA}.

arxiv情報

著者 Hang Zhang,Xin Li,Lidong Bing
発行日 2023-06-05 13:17:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS パーマリンク