Multimodal Contextualized Support for Enhancing Video Retrieval System

要約

現在のビデオ検索システム、特に競技で使用されるシステムは、クリップ全体やビデオ セグメント全体をエンコードするのではなく、個々のキーフレームや画像をクエリすることに主に焦点を当てています。
ただし、クエリでは多くの場合、特定の画像ではなく、一連のフレームにわたるアクションやイベントが記述されます。
これにより、単一フレームを分析するときに情報が不十分になり、クエリ結果の精度が低下します。
さらに、画像 (キーフレーム) からのみエンベディングを抽出しても、ビデオから推測されるより高レベルでより抽象的な洞察をモデルがエンコードするのに十分な情報が提供されません。
これらのモデルは、フレーム内に存在するオブジェクトのみを説明する傾向があり、深い理解が欠けています。
この研究では、最新の方法論を統合するシステムを提案し、マルチモーダルデータを抽出する新しいパイプラインを導入し、ビデオ内の複数のフレームから情報を組み込み、モデルが潜在的な意味を捉えるより高いレベルの情報を抽象化できるようにします。
1 つの画像内の物体検出だけに焦点を当てるのではなく、ビデオ クリップから推測することができます。

要約(オリジナル)

Current video retrieval systems, especially those used in competitions, primarily focus on querying individual keyframes or images rather than encoding an entire clip or video segment. However, queries often describe an action or event over a series of frames, not a specific image. This results in insufficient information when analyzing a single frame, leading to less accurate query results. Moreover, extracting embeddings solely from images (keyframes) does not provide enough information for models to encode higher-level, more abstract insights inferred from the video. These models tend to only describe the objects present in the frame, lacking a deeper understanding. In this work, we propose a system that integrates the latest methodologies, introducing a novel pipeline that extracts multimodal data, and incorporate information from multiple frames within a video, enabling the model to abstract higher-level information that captures latent meanings, focusing on what can be inferred from the video clip, rather than just focusing on object detection in one single image.

arxiv情報

著者 Quoc-Bao Nguyen-Le,Thanh-Huy Le-Nguyen
発行日 2024-12-10 15:20:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク