Long Story Short: a Summarize-then-Search Method for Long Video Question Answering

要約

GPT-3 などの大規模な言語モデルは、タスク固有のトレーニング データを必要とせずに新しいタスクに適応する優れた機能を実証しています。
この機能は、タスクの多様性が非常に大きいものの、利用可能な監視データが少ない、ナラティブな質問応答などの設定で特に効果的です。
この研究では、そのような言語モデルが、ストーリーが重要な役割を果たす、ドラマ、映画、アニメーションなどのマルチメディア コンテンツにおける長いマルチモーダルな物語にそのようなゼロショット推論能力を拡張できるかどうかを調査します。
私たちは、最初にビデオの物語を短いプロットに要約し、次に質問に関連するビデオの部分を検索する、物語ビデオ QA のフレームワークであるロング ストーリー ショートを提案します。
また、CLIPCheck を使用して視覚的なマッチングを強化することも提案します。
私たちのモデルは最先端の教師付きモデルを大幅に上回り、長いビデオに対するゼロショット QA の可能性を強調しています。

要約(オリジナル)

Large language models such as GPT-3 have demonstrated an impressive capability to adapt to new tasks without requiring task-specific training data. This capability has been particularly effective in settings such as narrative question answering, where the diversity of tasks is immense, but the available supervision data is small. In this work, we investigate if such language models can extend their zero-shot reasoning abilities to long multimodal narratives in multimedia content such as drama, movies, and animation, where the story plays an essential role. We propose Long Story Short, a framework for narrative video QA that first summarizes the narrative of the video to a short plot and then searches parts of the video relevant to the question. We also propose to enhance visual matching with CLIPCheck. Our model outperforms state-of-the-art supervised models by a large margin, highlighting the potential of zero-shot QA for long videos.

arxiv情報

著者 Jiwan Chung,Youngjae Yu
発行日 2023-11-02 13:36:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク