MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering

要約

人間の日常活動を支援できるビデオ質問応答 (VideoQA) システムを構築するには、多様で複雑なイベントを含む長い形式のビデオから回答を探すことが必須です。
既存のマルチモーダル VQA モデルは、特に大規模なマルチモーダル事前トレーニングの最近の成功により、画像または短いビデオ クリップで有望なパフォーマンスを達成します。
ただし、これらの方法を長編ビデオに拡張すると、新たな課題が生じます。
一方では、高密度のビデオ サンプリング戦略を使用すると、計算量が非常に多くなります。
一方、スパース サンプリングに依存する方法は、マルチイベントおよびマルチグラニュラリティの視覚的推論が必要なシナリオでは苦労します。
この作業では、Multi-modal Iterative Spatial-temporal Transformer (MIST) という名前の新しいモデルを導入して、長い形式の VideoQA 用に事前トレーニング済みのモデルをより適切に適応させます。
具体的には、MIST は、従来の高密度の時空間自己注意をカスケード セグメントおよび領域選択モジュールに分解し、質問自体に密接に関連するフレームと画像領域を適応的に選択します。
さまざまな粒度の視覚的概念は、アテンション モジュールによって効率的に処理されます。
さらに、MIST は、複数のイベントに対する推論をサポートするために、複数のレイヤーにわたって選択と注意を繰り返し実行します。
AGQA、NExT-QA、STAR、および Env-QA を含む 4 つの VideoQA データセットに関する実験結果は、MIST が最先端のパフォーマンスを達成し、計算効率と解釈可能性に優れていることを示しています。

要約(オリジナル)

To build Video Question Answering (VideoQA) systems capable of assisting humans in daily activities, seeking answers from long-form videos with diverse and complex events is a must. Existing multi-modal VQA models achieve promising performance on images or short video clips, especially with the recent success of large-scale multi-modal pre-training. However, when extending these methods to long-form videos, new challenges arise. On the one hand, using a dense video sampling strategy is computationally prohibitive. On the other hand, methods relying on sparse sampling struggle in scenarios where multi-event and multi-granularity visual reasoning are required. In this work, we introduce a new model named Multi-modal Iterative Spatial-temporal Transformer (MIST) to better adapt pre-trained models for long-form VideoQA. Specifically, MIST decomposes traditional dense spatial-temporal self-attention into cascaded segment and region selection modules that adaptively select frames and image regions that are closely relevant to the question itself. Visual concepts at different granularities are then processed efficiently through an attention module. In addition, MIST iteratively conducts selection and attention over multiple layers to support reasoning over multiple events. The experimental results on four VideoQA datasets, including AGQA, NExT-QA, STAR, and Env-QA, show that MIST achieves state-of-the-art performance and is superior at computation efficiency and interpretability.

arxiv情報

著者 Difei Gao,Luowei Zhou,Lei Ji,Linchao Zhu,Yi Yang,Mike Zheng Shou
発行日 2022-12-19 15:05:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク