EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval

要約

合成ビデオ検索では、ビデオと、ビデオ コンテンツを変更するテキストの説明がモデルへの入力として提供されます。
目的は、変更されたコンテンツを含む関連するビデオをビデオのデータベースから取得することです。
この困難なタスクの最初のステップは、大規模なトレーニング データセットを取得し、評価用の高品質のベンチマークを収集することです。
この研究では、大規模な自己中心的なビデオ データセットを使用した、きめ細かい合成ビデオ検索のための新しい評価ベンチマークである EgoCVR を紹介します。
EgoCVR は、高品質の時間的ビデオの理解に特に重点を置いた 2,295 のクエリで構成されています。
既存の合成ビデオ検索フレームワークでは、このタスクに必要な高品質の時間ビデオの理解を実現できないことがわかりました。
この欠点に対処するために、トレーニング不要の単純な方法を採用し、合成ビデオ検索用の汎用再ランキング フレームワークを提案し、これが EgoCVR で強力な結果を達成することを実証します。
私たちのコードとベンチマークは、https://github.com/ExplainableML/EgoCVR から無料で入手できます。

要約(オリジナル)

In Composed Video Retrieval, a video and a textual description which modifies the video content are provided as inputs to the model. The aim is to retrieve the relevant video with the modified content from a database of videos. In this challenging task, the first step is to acquire large-scale training datasets and collect high-quality benchmarks for evaluation. In this work, we introduce EgoCVR, a new evaluation benchmark for fine-grained Composed Video Retrieval using large-scale egocentric video datasets. EgoCVR consists of 2,295 queries that specifically focus on high-quality temporal video understanding. We find that existing Composed Video Retrieval frameworks do not achieve the necessary high-quality temporal video understanding for this task. To address this shortcoming, we adapt a simple training-free method, propose a generic re-ranking framework for Composed Video Retrieval, and demonstrate that this achieves strong results on EgoCVR. Our code and benchmark are freely available at https://github.com/ExplainableML/EgoCVR.

arxiv情報

著者 Thomas Hummel,Shyamgopal Karthik,Mariana-Iuliana Georgescu,Zeynep Akata
発行日 2024-07-23 17:19:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク