Boundary-Denoising for Video Activity Localization

要約

【タイトル】映像アクティビティのローカライズのための境界除去

【要約】

・映像アクティビティのローカライズは、長時間の未加工映像の意味を理解し、関心のあるアクションを取り出すことを目的とする。
・しかし、時間的アクティビティは時間的に連続しているため、アクションの間には明確な境界がない問題がある。
・また、イベントの開始と終了の定義は主観的であり、モデルを混乱させる可能性がある。
・これらの境界の曖昧さを解消するために、denoisingの観点から映像アクティビティローカライズ問題を研究することを提案する。
・具体的には、DenoiseLocというエンコーダーデコーダーモデルを提案する。トレーニング中に、コントロールされたノイズスケールで元の真実からランダムにアクションスパンを生成し、境界除去でこのプロセスを逆転させることにより、正確な境界を予測することを可能にする。
・実験の結果、DenoiseLocは、QV-Highlightsデータセットで平均mAPが+12.36%、THUMOS’14データセットでmAP@0.5が+1.64%向上し、TACoSおよびMADデータセットで少ない予測で最高の性能を発揮した。

要約(オリジナル)

Video activity localization aims at understanding the semantic content in long untrimmed videos and retrieving actions of interest. The retrieved action with its start and end locations can be used for highlight generation, temporal action detection, etc. Unfortunately, learning the exact boundary location of activities is highly challenging because temporal activities are continuous in time, and there are often no clear-cut transitions between actions. Moreover, the definition of the start and end of events is subjective, which may confuse the model. To alleviate the boundary ambiguity, we propose to study the video activity localization problem from a denoising perspective. Specifically, we propose an encoder-decoder model named DenoiseLoc. During training, a set of action spans is randomly generated from the ground truth with a controlled noise scale. Then we attempt to reverse this process by boundary denoising, allowing the localizer to predict activities with precise boundaries and resulting in faster convergence speed. Experiments show that DenoiseLoc advances %in several video activity understanding tasks. For example, we observe a gain of +12.36% average mAP on QV-Highlights dataset and +1.64% mAP@0.5 on THUMOS’14 dataset over the baseline. Moreover, DenoiseLoc achieves state-of-the-art performance on TACoS and MAD datasets, but with much fewer predictions compared to other current methods.

arxiv情報

著者 Mengmeng Xu,Mattia Soldan,Jialin Gao,Shuming Liu,Juan-Manuel Pérez-Rúa,Bernard Ghanem
発行日 2023-04-06 08:48:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク