An Efficient Framework for Few-shot Skeleton-based Temporal Action Segmentation

要約

時間的アクションセグメンテーション(TAS)は、トリミングされていない長いアクションシーケンスでアクションを分類および特定することを目的としています。
ディープラーニングの成功により、アクションセグメンテーションの多くのディープモデルが登場しました。
ただし、数発のTASは依然として困難な問題です。
この研究は、データ拡張法と改良されたモデルを含む、数ショットのスケルトンベースのTASのための効率的なフレームワークを提案します。
モーション補間に基づくデータ拡張アプローチは、不十分なデータの問題を解決するためにここに提示され、アクションシーケンスを合成することによってサンプルの数を大幅に増やすことができます。
さらに、コネクショニスト時系列分類(CTC)レイヤーを、スケルトンベースのTAS用に設計されたネットワークと連結して、最適化されたモデルを取得します。
CTCを活用することで、予測とグラウンドトゥルースの間の時間的整合性を強化し、セグメンテーション結果のセグメントごとのメトリックをさらに改善できます。
2つの小規模データセットと1つの大規模データセットを含む、公開データセットと自己構築データセットの両方に関する広範な実験は、数ショットのスケルトンベースのTASタスクのパフォーマンスを改善する2つの提案された方法の有効性を示しています。

要約(オリジナル)

Temporal action segmentation (TAS) aims to classify and locate actions in the long untrimmed action sequence. With the success of deep learning, many deep models for action segmentation have emerged. However, few-shot TAS is still a challenging problem. This study proposes an efficient framework for the few-shot skeleton-based TAS, including a data augmentation method and an improved model. The data augmentation approach based on motion interpolation is presented here to solve the problem of insufficient data, and can increase the number of samples significantly by synthesizing action sequences. Besides, we concatenate a Connectionist Temporal Classification (CTC) layer with a network designed for skeleton-based TAS to obtain an optimized model. Leveraging CTC can enhance the temporal alignment between prediction and ground truth and further improve the segment-wise metrics of segmentation results. Extensive experiments on both public and self-constructed datasets, including two small-scale datasets and one large-scale dataset, show the effectiveness of two proposed methods in improving the performance of the few-shot skeleton-based TAS task.

arxiv情報

著者 Leiyang Xu,Qiang Wang,Xiaotian Lin,Lin Yuan
発行日 2022-07-20 14:08:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク