MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling

要約

ビデオと言語の理解は、ビデオ質問応答、テキスト-ビデオ検索、マルチラベル分類など、産業における様々なアプリケーションを持っています。既存のビデオ言語理解手法では、一般的に重いマルチモーダルエンコーダと特徴融合モジュールを採用しており、計算コストが高い。特に、産業アプリケーションで一般的な高密度のビデオフレームや長いテキストを扱うことは困難である。本論文では、効率的かつ効果的な特徴量融合と、下流タスクへの迅速な適応を実現する、高精度かつ効率的な映像・言語理解モデルであるMuLTIを提案する。具体的には、長いシーケンスをサンプリングし、マルチモーダル特徴量を融合するために、アダプティブプーリング残差マッピングと自己アテンションモジュールに基づくテキストガイドマルチウェイサンプラを設計し、計算コストを削減し、従来のサンプラによる性能劣化に対処する。従って、MuLTIは限られた計算コストでより長いシーケンスを扱うことができる。次に、モデルの性能をさらに向上させ、ビデオ質問応答における事前学習タスクの不足を補うために、複数選択肢モデリングという新しい事前学習タスクを提案する。このタスクは、事前学習タスクと下流タスクのギャップを埋め、ビデオとテキストの特徴を整合させるモデルの能力を向上させる。効率的な特徴融合モジュールと新しい事前学習タスクの恩恵により、MuLTIは複数のデータセットで最先端の性能を達成しました。実装と事前学習済みモデルのリリースを予定しています。

要約(オリジナル)

Video-and-language understanding has a variety of applications in the industry, such as video question answering, text-video retrieval, and multi-label classification. Existing video-and-language understanding methods generally adopt heavy multi-modal encoders and feature fusion modules, which consume high computational costs. Specially, they have difficulty dealing with dense video frames or long text prevalent in industrial applications. This paper proposes MuLTI, a highly accurate and efficient video-and-language understanding model that achieves efficient and effective feature fusion and rapid adaptation to downstream tasks. Specifically, we design a Text-Guided MultiWay-Sampler based on adapt-pooling residual mapping and self-attention modules to sample long sequences and fuse multi-modal features, which reduces the computational costs and addresses performance degradation caused by previous samplers. Therefore, MuLTI can handle longer sequences with limited computational costs. Then, to further enhance the model’s performance and fill in the lack of pretraining tasks in the video question answering, we propose a new pretraining task named Multiple Choice Modeling. This task bridges the gap between pretraining and downstream tasks and improves the model’s ability to align video and text features. Benefiting from the efficient feature fusion module and the new pretraining task, MuLTI achieves state-of-the-art performance on multiple datasets. Implementation and pretrained models will be released.

arxiv情報

著者 Jiaqi Xu,Bo Liu,Yunkuo Chen,Mengli Cheng,Xing Shi
発行日 2024-03-01 02:32:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.MM パーマリンク