LAC: Latent Action Composition for Skeleton-based Action Segmentation

要約

スケルトンベースのアクションのセグメンテーションでは、トリミングされていないビデオ内の構成可能なアクションを認識する必要があります。
現在のアプローチでは、最初にスケルトン シーケンスから局所的な視覚的特徴を抽出し、次にそれらを時間モデルで処理してフレームごとのアクションを分類することで、この問題を切り離しています。
ただし、視覚的な機能では構成可能なアクションを十分に表現できないため、そのパフォーマンスは依然として制限されています。
これに関連して、スケルトンベースのアクションセグメンテーションのために合成された構成可能なモーションから学習することを目的とした新しい自己教師ありフレームワークである潜在アクション構成(LAC)を提案します。
LAC は、新しいシーケンスを合成するための新しい生成モジュールで構成されています。
具体的には、原始運動を表現するためにジェネレーター内に線形潜在空間を設計します。
新しい合成モーションは、複数の入力スケルトン シーケンスの潜在表現に対して算術演算を実行するだけで合成できます。
LAC は、多様性と複雑性が高いこのような合成シーケンスを利用して、対比学習を通じてシーケンス空間とフレーム空間の両方でスケルトンの視覚表現を学習します。
結果として得られるビジュアル エンコーダーは高い表現力を備えており、追加の時間モデルを必要とせずに、エンドツーエンドの微調整によってアクション セグメンテーション タスクに効果的に移行できます。
私たちは転移学習に焦点を当てた研究を実施し、事前トレーニングされた LAC から学習された表現が、TSU、Charade、PKU-MMD データセットで最先端のものよりも大幅に優れていることを示しました。

要約(オリジナル)

Skeleton-based action segmentation requires recognizing composable actions in untrimmed videos. Current approaches decouple this problem by first extracting local visual features from skeleton sequences and then processing them by a temporal model to classify frame-wise actions. However, their performances remain limited as the visual features cannot sufficiently express composable actions. In this context, we propose Latent Action Composition (LAC), a novel self-supervised framework aiming at learning from synthesized composable motions for skeleton-based action segmentation. LAC is composed of a novel generation module towards synthesizing new sequences. Specifically, we design a linear latent space in the generator to represent primitive motion. New composed motions can be synthesized by simply performing arithmetic operations on latent representations of multiple input skeleton sequences. LAC leverages such synthesized sequences, which have large diversity and complexity, for learning visual representations of skeletons in both sequence and frame spaces via contrastive learning. The resulting visual encoder has a high expressive power and can be effectively transferred onto action segmentation tasks by end-to-end fine-tuning without the need for additional temporal models. We conduct a study focusing on transfer-learning and we show that representations learned from pre-trained LAC outperform the state-of-the-art by a large margin on TSU, Charades, PKU-MMD datasets.

arxiv情報

著者 Di Yang,Yaohui Wang,Antitza Dantcheva,Quan Kong,Lorenzo Garattoni,Gianpiero Francesca,Francois Bremond
発行日 2024-02-21 18:50:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク