Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering

要約

我々は、ビデオ質問応答 (ビデオ QA) のためのシンプルなアプローチである Q-ViD を紹介します。これは、複雑なアーキテクチャ、計算コストのかかるパイプライン、または GPT のような閉じたモデルに基づく従来の方法とは異なり、Q-ViD は単一の命令認識型に依存しています。
ビジョン言語モデル (InstructBLIP) を開き、フレーム記述を使用してビデオ QA に取り組みます。
具体的には、ビデオに関する対象となる質問に依存するキャプション指示プロンプトを作成し、InstructBLIP を活用して、当面のタスクに役立つビデオ フレーム キャプションを取得します。
その後、質問に応じたフレーム キャプションを使用してビデオ全体の説明を作成し、その情報を質問に答えるプロンプトとともに大規模言語モデル (LLM) に供給します。
LLM は推論モジュールであり、複数選択 QA の最終ステップを実行します。
当社のシンプルな Q-ViD フレームワークは、NExT-QA、STAR、How2QA、TVQA、IntentQA などのさまざまなビデオ QA ベンチマークで、現在の最先端モデルと競合する、またはそれ以上のパフォーマンスを実現します。

要約(オリジナル)

We present Q-ViD, a simple approach for video question answering (video QA), that unlike prior methods, which are based on complex architectures, computationally expensive pipelines or use closed models like GPTs, Q-ViD relies on a single instruction-aware open vision-language model (InstructBLIP) to tackle videoQA using frame descriptions. Specifically, we create captioning instruction prompts that rely on the target questions about the videos and leverage InstructBLIP to obtain video frame captions that are useful to the task at hand. Subsequently, we form descriptions of the whole video using the question-dependent frame captions, and feed that information, along with a question-answering prompt, to a large language model (LLM). The LLM is our reasoning module, and performs the final step of multiple-choice QA. Our simple Q-ViD framework achieves competitive or even higher performances than current state of the art models on a diverse range of videoQA benchmarks, including NExT-QA, STAR, How2QA, TVQA and IntentQA.

arxiv情報

著者 David Romero,Thamar Solorio
発行日 2024-02-16 13:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク