PG-Video-LLaVA: Pixel Grounding Large Video-Language Models

要約

ビデオ データには固有の複雑性があるため、画像ベースの大規模マルチモーダル モデル (LMM) をビデオに拡張することは困難です。
画像ベースの LMM をビデオに拡張する最近のアプローチは、基礎機能が欠けているか (例: VideoChat、Video-ChatGPT、Video-LLaMA)、またはビデオをよりよく理解するための音声信号を利用していません (例: Video-ChatGPT)。
これらのギャップに対処するために、私たちはピクセルレベルのグラウンディング機能を備えた最初の LMM である Video-LLaVA を提案します。これは、オーディオキューをテキストに転写することで統合し、ビデオコンテキストの理解を強化します。
私たちのフレームワークは、既製のトラッカーと新しいグラウンディング モジュールを使用し、ユーザーの指示に従ってビデオ内のオブジェクトを空間的および時間的に位置特定できるようにします。
私たちはビデオベースの生成ベンチマークと質問応答ベンチマークを使用して Video-LLaVA を評価し、ビデオ内のプロンプトベースのオブジェクト接地パフォーマンスを測定するために特別に設計された新しいベンチマークを導入します。
さらに、Video-ChatGPT で利用されているように、ビデオベースの会話ベンチマークに GPT-3.5 を介して Vicuna を使用し、GPT-3.5 の独自の性質で懸念される結果の再現性を確保することを提案します。
当社のフレームワークは、SoTA 画像ベースの LLaVA モデルに基づいて構築されており、その利点をビデオ ドメインに拡張し、ビデオ ベースの会話とグラウンディング タスクで有望な利益をもたらします。
プロジェクトページ: https://github.com/mbzuai-oryx/Video-LLaVA

要約(オリジナル)

Extending image-based Large Multimodal Models (LMM) to videos is challenging due to the inherent complexity of video data. The recent approaches extending image-based LMM to videos either lack the grounding capabilities (e.g., VideoChat, Video-ChatGPT, Video-LLaMA) or do not utilize the audio-signals for better video understanding (e.g., Video-ChatGPT). Addressing these gaps, we propose Video-LLaVA, the first LMM with pixel-level grounding capability, integrating audio cues by transcribing them into text to enrich video-context understanding. Our framework uses an off-the-shelf tracker and a novel grounding module, enabling it to spatially and temporally localize objects in videos following user instructions. We evaluate Video-LLaVA using video-based generative and question-answering benchmarks and introduce new benchmarks specifically designed to measure prompt-based object grounding performance in videos. Further, we propose the use of Vicuna over GPT-3.5, as utilized in Video-ChatGPT, for video-based conversation benchmarking, ensuring reproducibility of results which is a concern with the proprietary nature of GPT-3.5. Our framework builds on SoTA image-based LLaVA model and extends its advantages to the video domain, delivering promising gains on video-based conversation and grounding tasks. Project Page: https://github.com/mbzuai-oryx/Video-LLaVA

arxiv情報

著者 Shehan Munasinghe,Rusiru Thushara,Muhammad Maaz,Hanoona Abdul Rasheed,Salman Khan,Mubarak Shah,Fahad Khan
発行日 2023-11-22 14:48:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク