Revisiting Foreground and Background Separation in Weakly-supervised Temporal Action Localization: A Clustering-based Approach

要約

弱監視時間的アクション ローカリゼーションは、ビデオ レベルのアクション ラベルのみを使用してビデオ内のアクション インスタンスをローカライズすることを目的としています。
既存の方法は主に、ビデオ分類損失を伴うスニペットレベルの予測を最適化する分類によるローカリゼーションパイプラインを採用しています。
ただし、この定式化には分類と検出の間に不一致があり、その結果、前景と背景 (F\&B) スニペットが不正確に分離されます。
この問題を軽減するために、ビデオ分類損失に大きく依存するのではなく、教師なしスニペット クラスタリングに頼って、スニペット間の基礎的な構造を調査することを提案します。
具体的には、新しいクラスタリングベースの F&B 分離アルゴリズムを提案します。
これは、スニペットを複数の潜在クラスターにグループ化するスニペット クラスタリング コンポーネントと、クラスターを前景または背景としてさらに分類するクラスター分類コンポーネントの 2 つのコア コンポーネントで構成されます。
これら 2 つのコンポーネントをトレーニングするためのグラウンド トゥルース ラベルがないため、最適なトランスポートに基づく統合された自己ラベル付けメカニズムを導入して、いくつかのもっともらしい事前分布と一致する高品質の疑似ラベルを生成します。
これにより、スニペットのクラスター割り当てを F&B ラベルに正確に関連付けることができるため、F&B の分離が強化されます。
THUMOS14、ActivityNet v1.2、v1.3 の 3 つのベンチマークでメソッドを評価します。
私たちの方法は、以前の方法よりも大幅に軽量でありながら、3 つのベンチマークすべてで有望なパフォーマンスを達成します。
コードは https://github.com/Qinying-Liu/CASE で入手できます。

要約(オリジナル)

Weakly-supervised temporal action localization aims to localize action instances in videos with only video-level action labels. Existing methods mainly embrace a localization-by-classification pipeline that optimizes the snippet-level prediction with a video classification loss. However, this formulation suffers from the discrepancy between classification and detection, resulting in inaccurate separation of foreground and background (F\&B) snippets. To alleviate this problem, we propose to explore the underlying structure among the snippets by resorting to unsupervised snippet clustering, rather than heavily relying on the video classification loss. Specifically, we propose a novel clustering-based F\&B separation algorithm. It comprises two core components: a snippet clustering component that groups the snippets into multiple latent clusters and a cluster classification component that further classifies the cluster as foreground or background. As there are no ground-truth labels to train these two components, we introduce a unified self-labeling mechanism based on optimal transport to produce high-quality pseudo-labels that match several plausible prior distributions. This ensures that the cluster assignments of the snippets can be accurately associated with their F\&B labels, thereby boosting the F\&B separation. We evaluate our method on three benchmarks: THUMOS14, ActivityNet v1.2 and v1.3. Our method achieves promising performance on all three benchmarks while being significantly more lightweight than previous methods. Code is available at https://github.com/Qinying-Liu/CASE

arxiv情報

著者 Qinying Liu,Zilei Wang,Shenghai Rong,Junjie Li,Yixin Zhang
発行日 2023-12-21 18:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク