Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval

要約

多チャンネルビデオ言語検索では、ビデオとテキストの応答やクエリを正しく結びつけるために、異なるチャンネルからの情報(例えば、ビデオ$+$質問、ビデオ$+$音声)を理解するモデルが必要である。幸いなことに、対比的マルチモーダルモデルは、CLIPのように画像/動画とテキストの実体を整合させるのに非常に有効であることが示されている。テキスト対比的モデルは、SimCSEのように識別可能な文埋め込みを生成する強力な能力を持っており、最近広く研究されている。これらの能力は、まさに多チャンネル映像言語検索に必要なものである。しかし,この2つの手法を限られたデータと資源で多チャンネル映像言語検索に迅速に適用する明確な方法は存在しない.本論文では、動画をどのように表現するか、動画とテキスト情報をどのように融合するかという2つの軸から、原理的なモデル設計空間を明らかにする。また,融合方法として,マルチモーダル変換器や事前学習された対照テキストモデルの利用を検討する.我々は、5つのビデオ言語データセットにおいて、4つの組み合わせを広範囲に評価した。その結果、離散テキストトークンと事前学習済み対照テキストモデルの組み合わせが最も優れた性能を示し、iVQAとHow2QAデータセットでは、数百万のビデオ言語データに対する追加学習なしに、最先端技術を上回る性能を発揮することが分かった。さらに分析を進めると、これは動画をテキストトークンとして表現することで、テキストモデルと自然に整合するテキストトークンで重要な視覚情報を捉えることができ、対比的な事前学習処理後のテキストモデルが強力なマルチモーダルリトリーバであるためであることがわかります。

要約(オリジナル)

Multi-channel video-language retrieval require models to understand information from different channels (e.g. video$+$question, video$+$speech) to correctly link a video with a textual response or query. Fortunately, contrastive multimodal models have been shown to be highly effective at aligning entities in images/videos and text, e.g., CLIP; text contrastive models have been extensively studied recently for their strong ability of producing discriminative sentence embeddings, e.g., SimCSE. Their abilities are exactly needed by multi-channel video-language retrieval. However, there is not a clear way to quickly adapt these two lines to multi-channel video-language retrieval with limited data and resources. In this paper, we identify a principled model design space with two axes: how to represent videos and how to fuse video and text information. Based on categorization of recent methods, we investigate the options of representing videos using continuous feature vectors or discrete text tokens; for the fusion method, we explore the use of a multimodal transformer or a pretrained contrastive text model. We extensively evaluate the four combinations on five video-language datasets. We surprisingly find that discrete text tokens coupled with a pretrained contrastive text model yields the best performance, which can even outperform state-of-the-art on the iVQA and How2QA datasets without the additional training on millions of video-language data. Further analysis shows that this is because representing videos as text tokens captures the key visual information with text tokens that are naturally aligned with text models and the text models are strong multimodal retriever after the contrastive pretraining process.

arxiv情報

著者 Xudong Lin,Simran Tiwari,Shiyuan Huang,Manling Li,Mike Zheng Shou,Heng Ji,Shih-Fu Chang
発行日 2023-01-06 14:19:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク