Skimming, Locating, then Perusing: A Human-Like Framework for Natural Language Video Localization

要約

このホワイトペーパーでは、自然言語のビデオローカリゼーション(NLVL)の問題について説明します。
ほとんどすべての既存の作品は、単一のモデルを活用してビデオとクエリのペア間の複雑なクロスモーダルおよびセルフモーダルの関係を直接キャプチャし、関連するセグメントを取得する「1回限りのルック」フレームワークに従います。
しかし、これらの方法は、理想的なローカリゼーション方法の2つの不可欠な特性を見落としていると主張します。1)フレーム微分可能:ポジティブ/ネガティブビデオフレームの不均衡を考慮すると、ローカリゼーション中にポジティブフレームを強調表示し、ネガティブフレームを弱めることが効果的です。
2)境界精度:正確なセグメント境界を予測するには、連続するフレーム間の変動が滑らかであることが多いため、モデルは連続するフレーム間のよりきめ細かい差異をキャプチャする必要があります。
この目的のために、人間がセグメントをどのように認識してローカライズするかに触発されて、スキミング-ロケーティング-パーシング(SLP)と呼ばれる2段階の人間のようなフレームワークを提案します。
SLPは、スキミングアンドロケーティング(SL)モジュールと双方向閲覧(BP)モジュールで構成されています。
SLモジュールは、最初にクエリセマンティクスを参照し、関連性のないフレームを除外しながら、ビデオから最も一致するフレームを選択します。
次に、BPモジュールは、このフレームに基づいて初期セグメントを構築し、同じアクティビティセマンティクスを共有するフレームがなくなるまで、隣接するフレームを探索することによって動的に更新します。
3つの挑戦的なベンチマークでの実験結果は、SLPが最先端の方法よりも優れており、より正確なセグメント境界をローカライズすることを示しています。

要約(オリジナル)

This paper addresses the problem of natural language video localization (NLVL). Almost all existing works follow the ‘only look once’ framework that exploits a single model to directly capture the complex cross- and self-modal relations among video-query pairs and retrieve the relevant segment. However, we argue that these methods have overlooked two indispensable characteristics of an ideal localization method: 1) Frame-differentiable: considering the imbalance of positive/negative video frames, it is effective to highlight positive frames and weaken negative ones during the localization. 2) Boundary-precise: to predict the exact segment boundary, the model should capture more fine-grained differences between consecutive frames since their variations are often smooth. To this end, inspired by how humans perceive and localize a segment, we propose a two-step human-like framework called Skimming-Locating-Perusing (SLP). SLP consists of a Skimming-and-Locating (SL) module and a Bi-directional Perusing (BP) module. The SL module first refers to the query semantic and selects the best matched frame from the video while filtering out irrelevant frames. Then, the BP module constructs an initial segment based on this frame, and dynamically updates it by exploring its adjacent frames until no frame shares the same activity semantic. Experimental results on three challenging benchmarks show that our SLP is superior to the state-of-the-art methods and localizes more precise segment boundaries.

arxiv情報

著者 Daizong Liu,Wei Hu
発行日 2022-07-27 10:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク