要約
最新のビデオテキスト検索フレームワークは、基本的に、ビデオエンコーダー、テキストエンコーダー、および類似性ヘッドの3つの部分で構成されています。
視覚的表現学習とテキスト表現学習の両方で成功を収めたため、ビデオテキスト検索の分野でもトランスベースのエンコーダと融合方法が採用されています。
このレポートでは、重要な要素が変圧器ベースの方法のどこにあるかを調査することを目的として、CLIP2TVを紹介します。
これを達成するために、最初にマルチモーダル学習に関するいくつかの最近の研究を再検討し、次にビデオテキスト検索にいくつかの技術を導入し、最後にさまざまな構成での広範な実験を通じてそれらを評価します。
特に、CLIP2TVはMSR-VTTデータセットで52.9@R1を達成し、以前のSOTAの結果を4.1%上回っています。
要約(オリジナル)
Modern video-text retrieval frameworks basically consist of three parts: video encoder, text encoder and the similarity head. With the success on both visual and textual representation learning, transformer based encoders and fusion methods have also been adopted in the field of video-text retrieval. In this report, we present CLIP2TV, aiming at exploring where the critical elements lie in transformer based methods. To achieve this, We first revisit some recent works on multi-modal learning, then introduce some techniques into video-text retrieval, finally evaluate them through extensive experiments in different configurations. Notably, CLIP2TV achieves 52.9@R1 on MSR-VTT dataset, outperforming the previous SOTA result by 4.1%.
arxiv情報
著者 | Zijian Gao,Jingyu Liu,Weiqi Sun,Sheng Chen,Dedan Chang,Lili Zhao |
発行日 | 2022-07-21 17:19:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google