要約
ビデオ検索 (VR) には、テキスト キャプションが与えられたビデオ データベースからグラウンド トゥルース ビデオを取得すること、またはその逆の検索が含まれます。
構成性の 2 つの重要なコンポーネント、オブジェクト、属性、アクションが正しい構文を使用して結合され、適切なテキスト クエリが形成されます。
これらのコンポーネント (オブジェクトと属性、アクション、構文) はそれぞれ、ビデオを区別し、正しいグラウンド トゥルース ビデオを取得するのに役立つ重要な役割を果たします。
ただし、これらのコンポーネントがビデオ検索パフォーマンスにどのような影響を与えるかは不明です。
したがって、私たちは、MSRVTT、MSVD、DIDEMO などの標準ベンチマークでビデオ検索モデルの構成的および構文的な理解を評価するための体系的な研究を実施します。
この調査は、ビデオ検索モデルの 2 つのカテゴリで実行されます。(i) ビデオとテキストのペアで事前トレーニングされ、下流のビデオ検索データセット (Frozen-in-Time、Violet、MCQ など) で微調整されます。
ii) ビデオ検索用の CLIP のような、事前にトレーニングされた画像テキスト表現を適応させます (例: CLIP4Clip、XCLIP、CLIP2Video など)。
私たちの実験により、ビデオの理解において、アクションと構文はオブジェクトや属性に比べて重要な役割を果たしていないことが明らかになりました。
さらに、事前トレーニングされた画像テキスト表現 (CLIP) を使用するビデオ検索モデルは、ビデオテキスト データで事前トレーニングされたモデルと比較して、構文および構成の理解が優れています。
コードは https://github.com/IntelLabs/multimodal_cognitive_ai/tree/main/ICSVR で入手できます。
要約(オリジナル)
Video retrieval (VR) involves retrieving the ground truth video from the video database given a text caption or vice-versa. The two important components of compositionality: objects & attributes and actions are joined using correct syntax to form a proper text query. These components (objects & attributes, actions and syntax) each play an important role to help distinguish among videos and retrieve the correct ground truth video. However, it is unclear what is the effect of these components on the video retrieval performance. We therefore, conduct a systematic study to evaluate the compositional and syntactic understanding of video retrieval models on standard benchmarks such as MSRVTT, MSVD and DIDEMO. The study is performed on two categories of video retrieval models: (i) which are pre-trained on video-text pairs and fine-tuned on downstream video retrieval datasets (Eg. Frozen-in-Time, Violet, MCQ etc.) (ii) which adapt pre-trained image-text representations like CLIP for video retrieval (Eg. CLIP4Clip, XCLIP, CLIP2Video etc.). Our experiments reveal that actions and syntax play a minor role compared to objects & attributes in video understanding. Moreover, video retrieval models that use pre-trained image-text representations (CLIP) have better syntactic and compositional understanding as compared to models pre-trained on video-text data. The code is available at https://github.com/IntelLabs/multimodal_cognitive_ai/tree/main/ICSVR
arxiv情報
著者 | Avinash Madasu,Vasudev Lal |
発行日 | 2024-04-17 11:38:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google