Temporal Sentence Grounding in Streaming Videos

要約

この論文は、ストリーミング ビデオにおける時間的センテンス グラウンディング (TSGSV) という新しいタスクに取り組むことを目的としています。
TSGSV の目標は、ビデオ ストリームと特定の文クエリの間の関連性を評価することです。
通常のビデオとは異なり、ストリーミング ビデオは特定のソースから継続的に取得され、監視やライブ ストリーム分析などの多くのアプリケーションで常にオンザフライで処理されることが望まれます。
したがって、TSGSV は、モデルが将来のフレームなしで推論し、長い過去のフレームを効率的に処理する必要があるため、困難を伴いますが、これは初期の方法では触れられていません。
上記の課題に具体的に対処するために、我々は 2 つの新しい方法を提案します。(1) モデルが今後のイベントについて学習できるようにする TwinNet 構造。
(2) 冗長な視覚フレームを削除し、クエリに関連するフレームを強化する言語ガイド付きの特徴圧縮機能。
私たちは、ActivityNet Captions、TACoS、MAD データセットを使用して広範な実験を行っています。
この結果は、提案した手法の優位性を示しています。
体系的なアブレーション研究でも、その有効性が確認されています。

要約(オリジナル)

This paper aims to tackle a novel task – Temporal Sentence Grounding in Streaming Videos (TSGSV). The goal of TSGSV is to evaluate the relevance between a video stream and a given sentence query. Unlike regular videos, streaming videos are acquired continuously from a particular source, and are always desired to be processed on-the-fly in many applications such as surveillance and live-stream analysis. Thus, TSGSV is challenging since it requires the model to infer without future frames and process long historical frames effectively, which is untouched in the early methods. To specifically address the above challenges, we propose two novel methods: (1) a TwinNet structure that enables the model to learn about upcoming events; and (2) a language-guided feature compressor that eliminates redundant visual frames and reinforces the frames that are relevant to the query. We conduct extensive experiments using ActivityNet Captions, TACoS, and MAD datasets. The results demonstrate the superiority of our proposed methods. A systematic ablation study also confirms their effectiveness.

arxiv情報

著者 Tian Gan,Xiao Wang,Yan Sun,Jianlong Wu,Qingpei Guo,Liqiang Nie
発行日 2023-08-14 12:30:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM パーマリンク