Language Supervised Training for Skeleton-based Action Recognition

要約

スケルトンに基づく行動認識は、その計算効率の高さと照明条件に対する頑健性から注目を集めている。既存のスケルトンに基づく動作認識手法は、動作間の意味的関係を十分に利用することなく、一般にワンホットの分類タスクとして定式化されています。例えば、「勝利のサインを出す」と「親指を立てる」はハンドジェスチャーの2つの動作であり、その大きな違いは手の動きである。このような情報は、行動クラスのカテゴリー的な一発符号化からは不可知論であるが、行動の言語記述からは明らかになる可能性がある。したがって、学習において動作の言語記述を利用することは、表現学習に有益である可能性がある。本研究では、スケルトンに基づく行動認識のための言語教師付き訓練(LST)アプローチを提案する。具体的には、大規模言語モデルを知識エンジンとして用い、身体部位の動作に関するテキスト記述を提供し、テキストエンコーダーを利用して身体部位ごとの特徴ベクトルを生成し、スケルトンエンコーダーを監視して動作表現を学習するマルチモーダル学習方式を提案する。実験により,提案するLST手法は,推論時に余分な計算を行うことなく,様々なベースラインモデルに対して顕著な改善を達成することが示される.LSTは、NTU RGB+D, NTU RGB+D 120, NW-UCLAなどの一般的なスケルトンベースの行動認識ベンチマークにおいて、新たな最先端技術を達成しています。コードは https://github.com/MartinXM/LST で見ることができます。

要約(オリジナル)

Skeleton-based action recognition has drawn a lot of attention for its computation efficiency and robustness to lighting conditions. Existing skeleton-based action recognition methods are typically formulated as a one-hot classification task without fully utilizing the semantic relations between actions. For example, ‘make victory sign’ and ‘thumb up’ are two actions of hand gestures, whose major difference lies in the movement of hands. This information is agnostic from the categorical one-hot encoding of action classes but could be unveiled in the language description of actions. Therefore, utilizing action language descriptions in training could potentially benefit representation learning. In this work, we propose a Language Supervised Training (LST) approach for skeleton-based action recognition. More specifically, we employ a large-scale language model as the knowledge engine to provide text descriptions for body parts movements of actions, and propose a multi-modal training scheme by utilizing the text encoder to generate feature vectors for different body parts and supervise the skeleton encoder for action representation learning. Experiments show that our proposed LST method achieves noticeable improvements over various baseline models without extra computation cost at inference. LST achieves new state-of-the-arts on popular skeleton-based action recognition benchmarks, including NTU RGB+D, NTU RGB+D 120 and NW-UCLA. The code can be found at https://github.com/MartinXM/LST.

arxiv情報

著者 Wangmeng Xiang,Chao Li,Yuxuan Zhou,Biao Wang,Lei Zhang
発行日 2022-08-10 12:55:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク