要約
私たちは、大規模言語モデル (LLM) にビデオ内の視覚コンテンツと聴覚コンテンツの両方を理解できる機能を提供するマルチモーダル フレームワークである Video-LLaMA を紹介します。
Video-LLaMA は、凍結された事前トレーニング済みのビジュアルおよびオーディオ エンコーダと凍結された LLM からクロスモーダル トレーニングをブートストラップします。
MiniGPT-4 や LLaVA などの静的画像理解に重点を置いた以前のビジョン LLM とは異なり、Video-LLaMA は主にビデオ理解における 2 つの課題に取り組みます: (1) 視覚シーンの時間的変化の捕捉、(2) オーディオビジュアル信号の統合。
最初の課題に対抗するために、事前トレーニングされた画像エンコーダーをビデオ エンコーダーにアセンブルし、ビデオと言語の対応を学習するためのビデオからテキストへの生成タスクを導入するビデオ Q フォーマーを提案します。
2 番目の課題では、事前トレーニングされたオーディオ エンコーダーとして複数のモダリティを調整するユニバーサル エンベディング モデルである ImageBind を活用し、ImageBind の上に Audio Q-former を導入して、LLM モジュールの合理的な聴覚クエリ エンベディングを学習します。
ビジュアルエンコーダーとオーディオエンコーダーの両方の出力を LLM の埋め込み空間に合わせるために、大規模なビデオ/画像キャプションのペアと、適度な量だが高品質のビジュアル命令チューニング データセットで Video-LLaMA をトレーニングします。
Video-LLaMA は、ビデオ コンテンツを認識して理解する能力を示し、ビデオ内で提示される視覚情報と聴覚情報に基づいた有意義な応答を生成することがわかりました。
これは、オーディオビジュアル AI アシスタントの有望なプロトタイプとしての Video-LLaMA の可能性を強調しています。
要約(オリジナル)
We present Video-LLaMA, a multi-modal framework that empowers Large Language Models (LLMs) with the capability of understanding both visual and auditory content in the video. Video-LLaMA bootstraps cross-modal training from the frozen pre-trained visual & audio encoders and the frozen LLMs. Unlike previous vision-LLMs that focus on static image comprehensions such as MiniGPT-4 and LLaVA, Video-LLaMA mainly tackles two challenges in video understanding: (1) capturing the temporal changes in visual scenes, (2) integrating audio-visual signals. To counter the first challenge, we propose a Video Q-former to assemble the pre-trained image encoder into our video encoder and introduce a video-to-text generation task to learn video-language correspondence. For the second challenge, we leverage ImageBind, a universal embedding model aligning multiple modalities as the pre-trained audio encoder, and introduce an Audio Q-former on top of ImageBind to learn reasonable auditory query embeddings for the LLM module. To align the output of both visual & audio encoders with LLM’s embedding space, we train Video-LLaMA on massive video/image-caption pairs as well as visual-instruction-tuning datasets of moderate amount but higher quality. We found Video-LLaMA showcases the ability to perceive and comprehend video content, generating meaningful responses that are grounded in the visual and auditory information presented in the videos. This highlights the potential of Video-LLaMA as a promising prototype for audio-visual AI assistants.
arxiv情報
著者 | Hang Zhang,Xin Li,Lidong Bing |
発行日 | 2023-06-12 02:28:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google