SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding

要約

ビデオモーメント検索としても知られる時間的グラウンディングは、特定のクエリ文に対応するビデオセグメントを見つけることを目的としています。
自然言語の構成的な性質により、事前定義されたイベントを超えたローカリゼーションが可能になり、既存の方法の構成的な一般化可能性に一定の課題が生じます。
最近の研究では、分解と再構築の方法を通じてビデオとクエリ間の対応関係を確立し、構成的な一般化を実現しています。
ただし、支配的なプリミティブのみを考慮し、ランダムなサンプリングと再結合を通じてネガティブ クエリを構築するため、モデルが合理的な構成を学習するのを妨げる意味的に信じがたいネガティブなクエリが生成されます。
さらに、最近の DETR ベースの手法は、構成的な時間的グラウンディングにおいて依然としてパフォーマンスが不十分であり、肯定的なクエリとは微妙に異なる否定的なクエリが与えられた場合に不合理な顕著性応答を示します。
これらの制限に対処するために、私たちはまず、GPT-3.5-Turbo を利用して意味的に妥当なハードネガティブクエリを生成する、ネガティブクエリ構築のための大規模言語モデル駆動の方法を提案します。
続いて、粗いものから細かいものへの顕著性ランキング戦略を導入します。これにより、モデルがビデオと階層的なネガティブ クエリの間の多粒度の意味論的関係を学習して、構成の一般化が促進されます。
2 つの困難なベンチマークに関する広範な実験により、提案した手法の有効性と一般化可能性が検証されています。
私たちのコードは https://github.com/zxccade/SHINE で入手できます。

要約(オリジナル)

Temporal grounding, also known as video moment retrieval, aims at locating video segments corresponding to a given query sentence. The compositional nature of natural language enables the localization beyond predefined events, posing a certain challenge to the compositional generalizability of existing methods. Recent studies establish the correspondence between videos and queries through a decompose-reconstruct manner to achieve compositional generalization. However, they only consider dominant primitives and build negative queries through random sampling and recombination, resulting in semantically implausible negatives that hinder the models from learning rational compositions. In addition, recent DETR-based methods still underperform in compositional temporal grounding, showing irrational saliency responses when given negative queries that have subtle differences from positive queries. To address these limitations, we first propose a large language model-driven method for negative query construction, utilizing GPT-3.5-Turbo to generate semantically plausible hard negative queries. Subsequently, we introduce a coarse-to-fine saliency ranking strategy, which encourages the model to learn the multi-granularity semantic relationships between videos and hierarchical negative queries to boost compositional generalization. Extensive experiments on two challenging benchmarks validate the effectiveness and generalizability of our proposed method. Our code is available at https://github.com/zxccade/SHINE.

arxiv情報

著者 Zixu Cheng,Yujiang Pu,Shaogang Gong,Parisa Kordjamshidi,Yu Kong
発行日 2024-07-15 16:53:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク