Localizing Events in Videos with Multimodal Queries

要約

ビデオの理解はデジタル時代において極めて重要なタスクですが、ビデオの動的かつマルチイベントの性質により、処理に多大な労力と計算量が必要となります。
したがって、セマンティック クエリに基づいて特定のイベントをローカライズすることは、ビデオ検索などのユーザー指向のアプリケーションとビデオ基盤モデルの学術研究の両方で重要性を増しています。
現在の研究における重大な制限は、セマンティック クエリが通常、ターゲット イベントのセマンティクスを表す自然言語で行われることです。
この設定では、画像とテキストで構成されるマルチモーダルなセマンティック クエリの可能性が無視されます。
このギャップに対処するために、マルチモーダル クエリを使用してビデオ内のイベントをローカライズするための新しいベンチマーク ICQ と、新しい評価データセット ICQ-Highlight を導入します。
私たちの新しいベンチマークは、イベントを描写する参照画像と、画像のセマンティクスを調整するための絞り込みテキストで構成されるマルチモーダル セマンティクス クエリが与えられた場合に、モデルがイベントの位置をどの程度うまく特定できるかを評価することを目的としています。
モデルのパフォーマンスを体系的にベンチマークするために、4 つのスタイルの参照画像と 5 種類の絞り込みテキストが含まれており、さまざまなドメインにわたってモデルのパフォーマンスを調査できるようになります。
既存のモデルを新しい設定に合わせて調整する 3 つの適応方法を提案し、特殊なモデルから大規模な基盤モデルまでの 10 個の SOTA モデルを評価します。
このベンチマークは、ビデオ イベント ローカリゼーションにおけるマルチモーダル クエリの調査に向けた最初のステップであると考えています。

要約(オリジナル)

Video understanding is a pivotal task in the digital era, yet the dynamic and multievent nature of videos makes them labor-intensive and computationally demanding to process. Thus, localizing a specific event given a semantic query has gained importance in both user-oriented applications like video search and academic research into video foundation models. A significant limitation in current research is that semantic queries are typically in natural language that depicts the semantics of the target event. This setting overlooks the potential for multimodal semantic queries composed of images and texts. To address this gap, we introduce a new benchmark, ICQ, for localizing events in videos with multimodal queries, along with a new evaluation dataset ICQ-Highlight. Our new benchmark aims to evaluate how well models can localize an event given a multimodal semantic query that consists of a reference image, which depicts the event, and a refinement text to adjust the images’ semantics. To systematically benchmark model performance, we include 4 styles of reference images and 5 types of refinement texts, allowing us to explore model performance across different domains. We propose 3 adaptation methods that tailor existing models to our new setting and evaluate 10 SOTA models, ranging from specialized to large-scale foundation models. We believe this benchmark is an initial step toward investigating multimodal queries in video event localization.

arxiv情報

著者 Gengyuan Zhang,Mang Ling Ada Fok,Yan Xia,Yansong Tang,Daniel Cremers,Philip Torr,Volker Tresp,Jindong Gu
発行日 2024-06-14 14:35:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク