Self-Chained Image-Language Model for Video Localization and Question Answering

要約

タイトル:ビデオのローカリゼーションと質問回答のためのセルフチェーンドイメージ・ランゲージモデル

要約:

– 以前の研究では、事前学習された画像言語モデルをビデオの質問回答に利用することで、有望な結果が得られていることが示されている。
– 画像言語モデルは、ビデオ言語モデルの表現学習を効率的にブートストラップすることができる。しかし、これらのモデルは、明示的な言語感覚、時間モデリングを持たない形で、一様にサンプリングされたビデオフレームを視覚的入力として連結することが一般的である。
– ビデオ入力の一部のみが言語クエリに関連する場合、このような一様なフレームサンプリングは、重要な視覚的手掛かりが抜け落ちることがある。
– SeViLAは、テンポラルキーフレームのローカリゼーションとQAに対処するために、単一の画像言語モデル(BLIP-2)を利用する革新的なフレームワークで、LocalizerとAnswererの2つのモジュールで構成されています。
– Localizerがビデオ全体から言語に注意を払ったキーフレームを見つけ、Answererがそれを利用して回答を予測します。そして、Answererがキーフレームの疑似ラベルを生成し、これにより高価なビデオモーメントのローカリゼーション注釈が不要になります。
– SeViLAは、5つのビデオQAおよびイベント予測タスクにおいて、いくつかの強いベースライン/以前の研究を上回り、ファインチューニング(NExT-QA、STAR)およびゼロショット(NExT-QA、STAR、How2QA、VLEP)の両方で最新の状態に達します。

要約(オリジナル)

Recent studies have shown promising results on utilizing pre-trained image-language models for video question answering. While these image-language models can efficiently bootstrap the representation learning of video-language models, they typically concatenate uniformly sampled video frames as visual inputs without explicit language-aware, temporal modeling. When only a portion of a video input is relevant to the language query, such uniform frame sampling can often lead to missing important visual cues. Although humans often find a video moment to focus on and rewind the moment to answer questions, training a query-aware video moment localizer often requires expensive annotations and high computational costs. To address this issue, we propose Self-Chained Video Localization-Answering (SeViLA), a novel framework that leverages a single image-language model (BLIP-2) to tackle both temporal keyframe localization and QA on videos. SeViLA framework consists of two modules: Localizer and Answerer, where both are parameter-efficiently fine-tuned from BLIP-2. We chain these modules for cascaded inference and self-refinement. First, in the forward chain, the Localizer finds multiple language-aware keyframes in a video, which the Answerer uses to predict the answer. Second, in the reverse chain, the Answerer generates keyframe pseudo-labels to refine the Localizer, alleviating the need for expensive video moment localization annotations. SeViLA outperforms several strong baselines/previous works on five video QA and event prediction tasks, and achieves the state-of-the-art in both fine-tuning (NExT-QA, STAR) and zero-shot (NExT-QA, STAR, How2QA, VLEP) settings. We show a comprehensive analysis, e.g., the impact of Localizer, comparisons of Localizer with other temporal localization models, pre-training/self-refinement of Localizer, and varying the number of keyframes.

arxiv情報

著者 Shoubin Yu,Jaemin Cho,Prateek Yadav,Mohit Bansal
発行日 2023-05-11 17:23:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク