Towards Micro-Action Recognition with Limited Annotations: An Asynchronous Pseudo Labeling and Training Approach

要約

マイクロアクション認識(MAR)は、ビデオで微妙な人間の行動を分類することを目指しています。
ただし、MARデータセットへの注釈は、アクションの繊細さのために特に困難です。
この目的のために、サンプルの一部のみがラベル付けされている半監視MAR(SSMAR)の設定を紹介します。
最初にSSMARに対して従来の半監視学習(SSL)方法を評価し、これらの方法が不正確な疑似ラベルに過度に採用する傾向があることを発見し、エラーの蓄積とパフォーマンスの低下につながります。
この問題は、主に、分類器の予測を擬似ラベルとして直接使用してモデルを訓練するという一般的な慣行から生じます。
この問題を解決するために、非同期擬似ラベリングとトレーニング(APLT)と呼ばれる新しいフレームワークを提案します。これは、擬似標識プロセスをモデルトレーニングから明示的に分離します。
具体的には、より正確な擬似labelを生成するために、オフラインの疑似標識段階で半監視されたクラスタリング法を導入します。
さらに、さまざまなクラスのノイズの多いラベルを動的にフィルタリングするために、自己適応のしきい値戦略が提案されています。
次に、フィルタリングされた擬似ラベルに基づいてメモリベースのプロトタイプ分類子を構築します。これは、修正され、その後のモデルトレーニングフェーズをガイドするために使用されます。
2つの擬似標識とモデルのトレーニングフェーズを非同期的に交互にすることにより、モデルはより正確な擬似ラベルで学習するだけでなく、過度の問題を回避することもできます。
3つの3月のデータセットでの実験は、APLTが最先端のSSLメソッドを大幅に上回ることを示しています。
たとえば、APLTは、50 \%のラベル付きデータのみを使用している場合、MA-12データセットのFIXMATCHよりも14.5 \%増加します。
コードは公開されます。

要約(オリジナル)

Micro-Action Recognition (MAR) aims to classify subtle human actions in video. However, annotating MAR datasets is particularly challenging due to the subtlety of actions. To this end, we introduce the setting of Semi-Supervised MAR (SSMAR), where only a part of samples are labeled. We first evaluate traditional Semi-Supervised Learning (SSL) methods to SSMAR and find that these methods tend to overfit on inaccurate pseudo-labels, leading to error accumulation and degraded performance. This issue primarily arises from the common practice of directly using the predictions of classifier as pseudo-labels to train the model. To solve this issue, we propose a novel framework, called Asynchronous Pseudo Labeling and Training (APLT), which explicitly separates the pseudo-labeling process from model training. Specifically, we introduce a semi-supervised clustering method during the offline pseudo-labeling phase to generate more accurate pseudo-labels. Moreover, a self-adaptive thresholding strategy is proposed to dynamically filter noisy labels of different classes. We then build a memory-based prototype classifier based on the filtered pseudo-labels, which is fixed and used to guide the subsequent model training phase. By alternating the two pseudo-labeling and model training phases in an asynchronous manner, the model can not only be learned with more accurate pseudo-labels but also avoid the overfitting issue. Experiments on three MAR datasets show that our APLT largely outperforms state-of-the-art SSL methods. For instance, APLT improves accuracy by 14.5\% over FixMatch on the MA-12 dataset when using only 50\% labeled data. Code will be publicly available.

arxiv情報

著者 Yan Zhang,Lechao Cheng,Yaxiong Wang,Zhun Zhong,Meng Wang
発行日 2025-04-10 14:22:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク