A Simple LLM Framework for Long-Range Video Question-Answering

要約

長距離ビデオ質問応答 (LVQA) のための言語ベースのフレームワークである LLoVi を紹介します。
多くの場合コストがかかり、特殊な長距離ビデオ モデリング設計 (例: メモリ キュー、状態空間レイヤーなど) を必要とする従来の長距離ビデオ理解方法とは異なり、私たちのアプローチでは、フレーム/クリップ レベルのビジュアル キャプション (例:
、BLIP2、LaViLa、LLaVA)を大規模言語モデル(GPT-3.5、GPT-4)と組み合わせて、シンプルでありながら驚くほど効果的な LVQA フレームワークを実現しました。
具体的には、LVQA の短期および長期モデリングの側面を 2 つの段階に分解します。
まず、短期ビジュアル キャプションを使用して、長い入力ビデオから高密度にサンプリングされた短いビデオ クリップ (長さ 0.5 ~ 8 秒) のテキスト説明を生成します。
その後、LLM が高密度に抽出された短期キャプションを集約し、ビデオ全体を理解して質問に答えるために必要な長期的な時間的推論を実行します。
私たちのシンプルなフレームワークがなぜこれほど効果的なのかを分析するために、私たちはシステムのさまざまなコンポーネントを徹底的に評価します。
私たちの経験的分析により、良好な LVQA パフォーマンスにはビジュアル キャプショナと LLM の選択が重要であることが明らかになりました。
さらに、最初にノイズの多い短期の視覚的キャプションを要約するよう LLM に要求し、次に指定された入力質問に答えるように要求する特殊なプロンプトが、LVQA パフォーマンスの大幅な向上につながることを示します。
非常に長い形式のビデオ質問応答ベンチマークとして最もよく知られている EgoSchema では、私たちの手法は 50.3% の精度を達成し、これまでの最高のパフォーマンスを示したアプローチを 18.1% (絶対利得) 上回りました。
さらに、当社のアプローチは、NeXT-QA と IntentQA で以前の最先端技術を 4.1%、3.1% 上回っています。
また、LLoVi を接地 LVQA に拡張し、NeXT-GQA データセットに対する以前のすべての方法よりも優れたパフォーマンスを示すことを示します。
コードは https://github.com/CeeZh/LLoVi でリリースします。

要約(オリジナル)

We present LLoVi, a language-based framework for long-range video question-answering (LVQA). Unlike prior long-range video understanding methods, which are often costly and require specialized long-range video modeling design (e.g., memory queues, state-space layers, etc.), our approach uses a frame/clip-level visual captioner (e.g., BLIP2, LaViLa, LLaVA) coupled with a Large Language Model (GPT-3.5, GPT-4) leading to a simple yet surprisingly effective LVQA framework. Specifically, we decompose short and long-range modeling aspects of LVQA into two stages. First, we use a short-term visual captioner to generate textual descriptions of short video clips (0.5-8s in length) densely sampled from a long input video. Afterward, an LLM aggregates the densely extracted short-term captions to perform long-range temporal reasoning needed to understand the whole video and answer a question. To analyze what makes our simple framework so effective, we thoroughly evaluate various components of our system. Our empirical analysis reveals that the choice of the visual captioner and LLM is critical for good LVQA performance. Furthermore, we show that a specialized prompt that asks the LLM first to summarize the noisy short-term visual captions and then answer a given input question leads to a significant LVQA performance boost. On EgoSchema, which is best known as a very long-form video question-answering benchmark, our method achieves 50.3% accuracy, outperforming the previous best-performing approach by 18.1% (absolute gain). In addition, our approach outperforms the previous state-of-the-art by 4.1% and 3.1% on NeXT-QA and IntentQA. We also extend LLoVi to grounded LVQA and show that it outperforms all prior methods on the NeXT-GQA dataset. We will release our code at https://github.com/CeeZh/LLoVi.

arxiv情報

著者 Ce Zhang,Taixi Lu,Md Mohaiminul Islam,Ziyang Wang,Shoubin Yu,Mohit Bansal,Gedas Bertasius
発行日 2023-12-28 18:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク