要約
多チャンネルのビデオ言語検索では、ビデオとテキストの応答やクエリを正しく結びつけるために、異なるチャンネル(例:ビデオ$+$質問、ビデオ$+$音声)からの情報を理解するモデルが必要である。幸いなことに、対照的なマルチモーダルモデルは、CLIPのように画像や動画とテキストの実体を一致させるのに非常に効果的であることが示されている。テキスト対照モデルは、SimCSEのように識別可能な文埋め込みを生成する強い能力で最近盛んに研究されている。これらの能力は、まさに多チャンネルのビデオ言語検索に必要なものである。しかし、限られたデータとリソースしかない多チャンネルのビデオ言語検索に、この2つの系統を迅速に適応させる明確な方法はない。本論文では、動画をどのように表現するか、動画とテキスト情報をどのように融合するかという2つの軸から、原理的なモデル設計空間を明らかにする。最近の手法の分類に基づき、連続的な特徴ベクトルまたは離散的なテキストトークンを用いて動画を表現する選択肢を検討し、融合方法については、マルチモーダル変換器または事前学習された対照的テキストモデルの使用を検討する。この4つの組み合わせについて、5つのビデオ言語データセットで広範囲に評価した。その結果、離散テキストトークンと事前に訓練された対照的なテキストモデルとの組み合わせが最も優れた性能を発揮し、iVQAとHow2QAデータセットでは、数百万のビデオ言語データに対する追加の訓練なしで、最先端の技術を上回ることができることがわかりました。さらに分析を進めると、動画をテキストトークンとして表現することで、テキストモデルと自然に整合するテキストトークンで重要な視覚情報を捉え、対比的な事前訓練によりテキストモデルが強力なマルチモーダル検索を行うためであることがわかります。
要約(オリジナル)
Multi-channel video-language retrieval require models to understand information from different channels (e.g. video$+$question, video$+$speech) to correctly link a video with a textual response or query. Fortunately, contrastive multimodal models have been shown to be highly effective at aligning entities in images/videos and text, e.g., CLIP; text contrastive models have been extensively studied recently for their strong ability of producing discriminative sentence embeddings, e.g., SimCSE. Their abilities are exactly needed by multi-channel video-language retrieval. However, there is not a clear way to quickly adapt these two lines to multi-channel video-language retrieval with limited data and resources. In this paper, we identify a principled model design space with two axes: how to represent videos and how to fuse video and text information. Based on categorization of recent methods, we investigate the options of representing videos using continuous feature vectors or discrete text tokens; for the fusion method, we explore the use of a multimodal transformer or a pretrained contrastive text model. We extensively evaluate the four combinations on five video-language datasets. We surprisingly find that discrete text tokens coupled with a pretrained contrastive text model yields the best performance, which can even outperform state-of-the-art on the iVQA and How2QA datasets without the additional training on millions of video-language data. Further analysis shows that this is because representing videos as text tokens captures the key visual information with text tokens that are naturally aligned with text models and the text models are strong multimodal retriever after the contrastive pretraining process.
arxiv情報
著者 | Xudong Lin,Simran Tiwari,Shiyuan Huang,Manling Li,Mike Zheng Shou,Heng Ji,Shih-Fu Chang |
発行日 | 2023-03-07 15:17:57+00:00 |
arxivサイト | arxiv_id(pdf) |