要約
ビデオ検索などのユーザー指向アプリケーションの重要性が高まる中、セマンティック クエリに基づいてビデオ内のイベントをローカライズすることは、ビデオを理解する上で極めて重要なタスクです。
しかし、現在の研究は主に自然言語クエリ (NLQ) に依存しており、特に非言語的または馴染みのない概念を言葉で表現することが難しい場合に、画像を統合して意味論的なクエリをより柔軟に表現するマルチモーダル クエリ (MQ) を使用する可能性が見落とされています。
。
このギャップを埋めるために、評価データセット ICQ-Highlight とともに、MQ を使用してビデオ内のイベントをローカライズするために設計された新しいベンチマークである ICQ を導入します。
この新しいタスクに対して既存のビデオ ローカリゼーション モデルに対応して評価するために、3 つのマルチモーダル クエリ適応方法と、擬似 MQ 戦略に関する新しいサロゲート ファインチューニングを提案します。
ICQ は、特殊なビデオ ローカリゼーション モデルからビデオ LLM に至るまで、さまざまなアプリケーション ドメインにわたる 12 の最先端のバックボーン モデルを体系的にベンチマークします。
私たちの実験は、現実世界のアプリケーションにおける MQ の高い可能性を強調しています。
私たちは、このベンチマークがビデオ イベント ローカリゼーションにおける MQ の進歩に向けた第一歩であると信じています。
要約(オリジナル)
Localizing events in videos based on semantic queries is a pivotal task in video understanding, with the growing significance of user-oriented applications like video search. Yet, current research predominantly relies on natural language queries (NLQs), overlooking the potential of using multimodal queries (MQs) that integrate images to more flexibly represent semantic queries — especially when it is difficult to express non-verbal or unfamiliar concepts in words. To bridge this gap, we introduce ICQ, a new benchmark designed for localizing events in videos with MQs, alongside an evaluation dataset ICQ-Highlight. To accommodate and evaluate existing video localization models for this new task, we propose 3 Multimodal Query Adaptation methods and a novel Surrogate Fine-tuning on pseudo-MQs strategy. ICQ systematically benchmarks 12 state-of-the-art backbone models, spanning from specialized video localization models to Video LLMs, across diverse application domains. Our experiments highlight the high potential of MQs in real-world applications. We believe this benchmark is a first step toward advancing MQs in video event localization.
arxiv情報
著者 | Gengyuan Zhang,Mang Ling Ada Fok,Jialu Ma,Yan Xia,Daniel Cremers,Philip Torr,Volker Tresp,Jindong Gu |
発行日 | 2024-11-21 17:58:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google