SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised Action Segmentation

要約

半教師ありアクション セグメンテーションは、トレーニング セット内の一部のビデオのみがラベルを持つ、トリミングされていない長いビデオでフレームごとの分類を実行することを目的としています。
最近の研究では、ラベルなしデータを使用した教師なし表現学習における対照学習の可能性が示されています。
ただし、アクション セグメンテーションのための教師なし対比学習による各フレームの表現の学習は、未解決の困難な問題のままです。
本稿では、半教師ありアクションセグメンテーションのための強力なフレームごとの表現を抽出するために、近隣一貫性認識ユニット(SMC-NCA)を備えた新しいセマンティックガイド型マルチレベルコントラストスキームを提案します。
具体的には、表現学習の場合、SMC はまず、元の入力、エンコードされた意味論的および時間的特徴の動的クラスタリング プロセスに基づいて、統一的かつ対照的な方法で情報内および情報間の変動を調査するために使用されます。
次に、過剰セグメンテーションの問題を軽減するために、異なるフレームを中心とする近傍間の空間的一貫性を強制する役割を担う NCA モジュールが、半教師あり学習のために SMC と連携して動作します。
当社の SMC は 3 つのベンチマークで他の最先端の手法を上回り、編集距離と精度の点でそれぞれ最大 17.8% と 12.6% の向上を実現しました。
さらに、NCA ユニットは、わずか 5% のラベル付きビデオが存在する場合でも、他のユニットに比べてセグメンテーション パフォーマンスが大幅に向上します。
また、パーキンソン病マウス行動 (PDMB) データセットに対する提案された方法の有効性も示します。
コードとデータセットは一般に公開されます。

要約(オリジナル)

Semi-supervised action segmentation aims to perform frame-wise classification in long untrimmed videos, where only a fraction of videos in the training set have labels. Recent studies have shown the potential of contrastive learning in unsupervised representation learning using unlabelled data. However, learning the representation of each frame by unsupervised contrastive learning for action segmentation remains an open and challenging problem. In this paper, we propose a novel Semantic-guided Multi-level Contrast scheme with a Neighbourhood-Consistency-Aware unit (SMC-NCA) to extract strong frame-wise representations for semi-supervised action segmentation. Specifically, for representation learning, SMC is firstly used to explore intra- and inter-information variations in a unified and contrastive way, based on dynamic clustering process of the original input, encoded semantic and temporal features. Then, the NCA module, which is responsible for enforcing spatial consistency between neighbourhoods centered at different frames to alleviate over-segmentation issues, works alongside SMC for semi-supervised learning. Our SMC outperforms the other state-of-the-art methods on three benchmarks, offering improvements of up to 17.8% and 12.6% in terms of edit distance and accuracy, respectively. Additionally, the NCA unit results in significant better segmentation performance against the others in the presence of only 5% labelled videos. We also demonstrate the effectiveness of the proposed method on our Parkinson’s Disease Mouse Behaviour (PDMB) dataset. The code and datasets will be made publicly available.

arxiv情報

著者 Feixiang Zhou,Zheheng Jiang,Huiyu Zhou,Xuelong Li
発行日 2023-12-19 17:26:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク