MoReVQA: Exploring Modular Reasoning Models for Video Question Answering

要約

このペーパーでは、分解された多段階のモジュール推論フレームワークを介してビデオ質問応答 (videoQA) のタスクに取り組みます。
これまでのモジュール方式では、ビジュアル コンテンツに基づいていない単一の計画段階で有望であることが示されていました。
ただし、シンプルで効果的なベースラインを通じて、このようなシステムは、実際には困難な videoQA 設定で不安定な動作を引き起こす可能性があることがわかりました。
したがって、従来の単一段階の計画手法とは異なり、イベントパーサー、グラウンディング段階、および外部メモリと組み合わせた最終推論段階で構成される多段階システムを提案します。
すべてのステージはトレーニング不要で、大規模なモデルの数ショット プロンプトを使用して実行され、各ステージで解釈可能な中間出力が作成されます。
基礎となる計画とタスクの複雑さを分解することで、当社の手法である MoReVQA は、標準的な videoQA ベンチマーク (NExT-QA、iVQA、EgoSchema、ActivityNet-QA) に関する以前の作業よりも改善され、最先端の結果が得られ、関連タスクが拡張されています。
(固定ビデオQA、段落キャプション)。

要約(オリジナル)

This paper addresses the task of video question answering (videoQA) via a decomposed multi-stage, modular reasoning framework. Previous modular methods have shown promise with a single planning stage ungrounded in visual content. However, through a simple and effective baseline, we find that such systems can lead to brittle behavior in practice for challenging videoQA settings. Thus, unlike traditional single-stage planning methods, we propose a multi-stage system consisting of an event parser, a grounding stage, and a final reasoning stage in conjunction with an external memory. All stages are training-free, and performed using few-shot prompting of large models, creating interpretable intermediate outputs at each stage. By decomposing the underlying planning and task complexity, our method, MoReVQA, improves over prior work on standard videoQA benchmarks (NExT-QA, iVQA, EgoSchema, ActivityNet-QA) with state-of-the-art results, and extensions to related tasks (grounded videoQA, paragraph captioning).

arxiv情報

著者 Juhong Min,Shyamal Buch,Arsha Nagrani,Minsu Cho,Cordelia Schmid
発行日 2024-04-09 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク