要約
Video-Text Retrieval (VTR) は、特定の文のセマンティクスに関連する最も関連性の高いビデオを検索することを目的としており、その逆も同様です。
一般に、この検索タスクは、ビデオとテキストの特徴表現の抽出、特徴の埋め込みとマッチング、および目的関数の 4 つの連続するステップで構成されます。
最後に、データセットから取得されたサンプルのリストが、クエリとの類似性に基づいてランク付けされます。
近年、深層学習技術によって目覚ましい進歩が見られますが、VTR は効率的な時空間ビデオ機能を学習する方法や、クロスモーダル ギャップをどのように狭めるかなどの問題により、依然として困難な課題です。
この調査では、VTR に関連する 100 を超える研究論文をレビューして要約し、いくつかの一般的にベンチマークされたデータセットで最先端のパフォーマンスを実証し、潜在的な課題と方向性について議論し、この分野の研究者にいくつかの洞察を提供することを期待しています。
ビデオテキスト検索の。
要約(オリジナル)
Video-Text Retrieval (VTR) aims to search for the most relevant video related to the semantics in a given sentence, and vice versa. In general, this retrieval task is composed of four successive steps: video and textual feature representation extraction, feature embedding and matching, and objective functions. In the last, a list of samples retrieved from the dataset is ranked based on their matching similarities to the query. In recent years, significant and flourishing progress has been achieved by deep learning techniques, however, VTR is still a challenging task due to the problems like how to learn an efficient spatial-temporal video feature and how to narrow the cross-modal gap. In this survey, we review and summarize over 100 research papers related to VTR, demonstrate state-of-the-art performance on several commonly benchmarked datasets, and discuss potential challenges and directions, with the expectation to provide some insights for researchers in the field of video-text retrieval.
arxiv情報
著者 | Cunjuan Zhu,Qi Jia,Wei Chen,Yanming Guo,Yu Liu |
発行日 | 2023-02-24 10:14:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google