CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding

要約

ビデオ テンポラル グラウンディング (VTG) のターゲットは、自然言語 (NL) の説明に従って、トリミングされていないビデオの一時的な瞬間をローカライズすることです。
実世界のアプリケーションでは終わりのないビデオ ストリームが提供されるため、長い形式のビデオの一時的なグラウンディングが必要になり、2 つの大きな課題が生じます。(1) ビデオの長さが長いと、サンプルを減らさずにビデオ全体を処理することが難しくなります。
率が高くなり、計算負荷が高くなります。
(2) 正確なマルチモーダル アライメントは、モーメント候補の数が増えるにつれて、より困難になります。
これらの課題に対処するために、効率的なウィンドウ中心の COarse-to-fiNE アライメント フレームワークである CONE を提案します。このフレームワークは、長い形式のビデオ入力をより高速な推論速度で柔軟に処理し、新しい Coarse-to-Fine Multi-
モーダル アライメント フレームワーク。
具体的には、スライディング ウィンドウ アプローチを使用して、長いビデオを候補ウィンドウに動的にスライスします。
CONE はウィンドウを中心に、(1) 対比学習によりウィンドウ間 (粗粒度) の意味分散を学習し、NL クエリに関連する候補ウィンドウを事前にフィルタリングすることで推論を高速化し、(2) ウィンドウ内 (細かい) を実行します。
-グレイン) 対照的な視覚テキストの事前トレーニング済みモデルの強力なマルチモーダル アラインメント機能を利用した候補モーメント ランキング。
長いビデオに対する 2 つの大規模な VTG ベンチマークでの広範な実験では、大幅なパフォーマンスの向上 (MAD で 3.13% から 6.87%、Ego4d-NLQ で 10.46% から 13.46%) が一貫して示され、CONE は両方のデータセットで SOTA の結果を達成しています。
分析により、当社のシステムは、CONE の SOTA パフォーマンスを維持しながら、Ego4d-NLQ で 2 倍、MAD で 15 倍の推論速度を向上させるため、コンポーネントの有効性と長時間のビデオ グラウンディングにおける効率の向上が明らかになりました。

要約(オリジナル)

Video temporal grounding (VTG) targets to localize temporal moments in an untrimmed video according to a natural language (NL) description. Since real-world applications provide a never-ending video stream, it raises demands for temporal grounding for long-form videos, which leads to two major challenges: (1) the long video length makes it difficult to process the entire video without decreasing sample rate and leads to high computational burden; (2) the accurate multi-modal alignment is more challenging as the number of moment candidates increases. To address these challenges, we propose CONE, an efficient window-centric COarse-to-fiNE alignment framework, which flexibly handles long-form video inputs with higher inference speed, and enhances the temporal grounding via our novel coarse-to-fine multi-modal alignment framework. Specifically, we dynamically slice the long video into candidate windows via a sliding window approach. Centering at windows, CONE (1) learns the inter-window (coarse-grained) semantic variance through contrastive learning and speeds up inference by pre-filtering the candidate windows relevant to the NL query, and (2) conducts intra-window (fine-grained) candidate moments ranking utilizing the powerful multi-modal alignment ability of a contrastive vision-text pre-trained model. Extensive experiments on two large-scale VTG benchmarks for long videos consistently show a substantial performance gain (from 3.13% to 6.87% on MAD and from 10.46% to 13.46% on Ego4d-NLQ) and CONE achieves the SOTA results on both datasets. Analysis reveals the effectiveness of components and higher efficiency in long video grounding as our system improves the inference speed by 2x on Ego4d-NLQ and 15x on MAD while keeping the SOTA performance of CONE.

arxiv情報

著者 Zhijian Hou,Wanjun Zhong,Lei Ji,Difei Gao,Kun Yan,Wing-Kwong Chan,Chong-Wah Ngo,Zheng Shou,Nan Duan
発行日 2022-09-22 10:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR パーマリンク