Localizing Events in Videos with Multimodal Queries

要約

ビデオ検索などのユーザー指向アプリケーションの重要性が高まる中、セマンティッククエリに基づいてビデオ内のイベントをローカライズすることは、ビデオを理解する上で極めて重要なタスクです。
しかし、現在の研究は主に自然言語クエリ (NLQ) に依存しており、特に非言語的または馴染みのない概念を言葉で表現することが難しい場合に、画像を統合して意味論的なクエリをより柔軟に表現するマルチモーダルクエリ (MQ) を使用する可能性が見落とされています。
。
このギャップを埋めるために、評価データセット ICQ-Highlight とともに、MQ を使用してビデオ内のイベントをローカライズするために設計された新しいベンチマークである ICQ を導入します。
この新しいタスクに対して既存のビデオローカリゼーションモデルに対応して評価するために、3 つのマルチモーダルクエリ適応方法と、擬似 MQ 戦略に関する新しいサロゲートファインチューニングを提案します。
ICQ は、特殊なビデオローカリゼーションモデルからビデオ LLM に至るまで、さまざまなアプリケーションドメインにわたる 12 の最先端のバックボーンモデルを体系的にベンチマークします。
私たちの実験は、現実世界のアプリケーションにおける MQ の高い可能性を強調しています。
私たちは、このベンチマークがビデオイベントローカリゼーションにおける MQ の進歩に向けた第一歩であると信じています。

要約(オリジナル)

Localizing events in videos based on semantic queries is a pivotal task in video understanding, with the growing significance of user-oriented applications like video search. Yet, current research predominantly relies on natural language queries (NLQs), overlooking the potential of using multimodal queries (MQs) that integrate images to more flexibly represent semantic queries — especially when it is difficult to express non-verbal or unfamiliar concepts in words. To bridge this gap, we introduce ICQ, a new benchmark designed for localizing events in videos with MQs, alongside an evaluation dataset ICQ-Highlight. To accommodate and evaluate existing video localization models for this new task, we propose 3 Multimodal Query Adaptation methods and a novel Surrogate Fine-tuning on pseudo-MQs strategy. ICQ systematically benchmarks 12 state-of-the-art backbone models, spanning from specialized video localization models to Video LLMs, across diverse application domains. Our experiments highlight the high potential of MQs in real-world applications. We believe this benchmark is a first step toward advancing MQs in video event localization.

arxiv情報

著者	Gengyuan Zhang,Mang Ling Ada Fok,Jialu Ma,Yan Xia,Daniel Cremers,Philip Torr,Volker Tresp,Jindong Gu
発行日	2024-11-21 17:58:55+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Localizing Events in Videos with Multimodal Queries

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー