Action Sensitivity Learning for Temporal Action Localization

要約

動作インスタンスの認識と位置特定を伴う時間的動作位置特定 (TAL) は、ビデオを理解する上で困難なタスクです。
既存のアプローチのほとんどは、アクション クラスを直接予測し、境界までのオフセットを回帰しますが、各フレームの重要性の不一致を見逃しています。
この論文では、このタスクに取り組むためのアクション感度学習フレームワーク (ASL) を提案します。このフレームワークは、各フレームの値を評価し、生成されたアクション感度を活用してトレーニング手順を再調整することを目的としています。
まず、クラス レベルとインスタンス レベルでそれぞれアクションの感度を学習するために、軽量のアクション感度エバリュエーターを導入します。
2 つのブランチの出力を組み合わせて、2 つのサブタスクの勾配を再重み付けします。
さらに、各フレームのアクション感度に基づいて、機能を強化するためにアクションに敏感なコントラスト損失を設計します。ここでは、アクションを認識するフレームがポジティブペアとしてサンプリングされ、アクションに無関係なフレームが押しのけられます。
さまざまなアクション ローカリゼーション ベンチマーク (MultiThumos、Charades、Ego4D-Moment Queries v1.0、Epic-Kitchens 100、Thumos14、ActivityNet1.3) に関する広範な調査により、ASL が平均点で最先端のものを上回っていることが示されています。
-単一ラベル、高密度ラベル、自己中心的なシナリオなど、複数のタイプのシナリオの下での mAP。

要約(オリジナル)

Temporal action localization (TAL), which involves recognizing and locating action instances, is a challenging task in video understanding. Most existing approaches directly predict action classes and regress offsets to boundaries, while overlooking the discrepant importance of each frame. In this paper, we propose an Action Sensitivity Learning framework (ASL) to tackle this task, which aims to assess the value of each frame and then leverage the generated action sensitivity to recalibrate the training procedure. We first introduce a lightweight Action Sensitivity Evaluator to learn the action sensitivity at the class level and instance level, respectively. The outputs of the two branches are combined to reweight the gradient of the two sub-tasks. Moreover, based on the action sensitivity of each frame, we design an Action Sensitive Contrastive Loss to enhance features, where the action-aware frames are sampled as positive pairs to push away the action-irrelevant frames. The extensive studies on various action localization benchmarks (i.e., MultiThumos, Charades, Ego4D-Moment Queries v1.0, Epic-Kitchens 100, Thumos14 and ActivityNet1.3) show that ASL surpasses the state-of-the-art in terms of average-mAP under multiple types of scenarios, e.g., single-labeled, densely-labeled and egocentric.

arxiv情報

著者 Jiayi Shao,Xiaohan Wang,Ruijie Quan,Junjun Zheng,Jiang Yang,Yi Yang
発行日 2023-09-13 11:52:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク