要約
トリミングされていないビデオと自然言語クエリが与えられた場合、ビデオ センテンス グラウンディングは、ビデオ内のターゲットの時間的瞬間をローカライズすることを目的としています。
既存の方法は主に、説明的な文とビデオ セグメントのセマンティクスを単一の時間解像度で一致させて整列させることでこのタスクに取り組みますが、異なる解像度でのビデオ コンテンツの時間的一貫性は無視します。
この作業では、マルチモーダル機能エンコーダー、Multi-Resolution Temporal (MRT) モジュール、および予測モジュールで構成される MRTNet という、新しいマルチ解像度の一時的なビデオ センテンス グラウンディング ネットワークを提案します。
MRT モジュールはエンコーダー/デコーダー ネットワークであり、デコーダー部分の出力機能はトランスフォーマーと連携して、最終的な開始と終了のタイムスタンプを予測します。
特に、当社の MRT モジュールはホットプラグ可能です。つまり、アンカーのないモデルにシームレスに組み込むことができます。
さらに、ハイブリッド ロスを利用して MRT モジュールのクロスモーダル機能を監視し、フレーム レベル、クリップ レベル、シーケンス レベルの 3 つのスケールでより正確なグラウンディングを行います。
3 つの一般的なデータセットに対する広範な実験により、MRTNet の有効性が示されました。
要約(オリジナル)
Given an untrimmed video and natural language query, video sentence grounding aims to localize the target temporal moment in the video. Existing methods mainly tackle this task by matching and aligning semantics of the descriptive sentence and video segments on a single temporal resolution, while neglecting the temporal consistency of video content in different resolutions. In this work, we propose a novel multi-resolution temporal video sentence grounding network: MRTNet, which consists of a multi-modal feature encoder, a Multi-Resolution Temporal (MRT) module, and a predictor module. MRT module is an encoder-decoder network, and output features in the decoder part are in conjunction with Transformers to predict the final start and end timestamps. Particularly, our MRT module is hot-pluggable, which means it can be seamlessly incorporated into any anchor-free models. Besides, we utilize a hybrid loss to supervise cross-modal features in MRT module for more accurate grounding in three scales: frame-level, clip-level and sequence-level. Extensive experiments on three prevalent datasets have shown the effectiveness of MRTNet.
arxiv情報
著者 | Wei Ji,Long Chen,Yinwei Wei,Yiming Wu,Tat-Seng Chua |
発行日 | 2022-12-27 05:14:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google