Video-based Pose-Estimation Data as Source for Transfer Learning in Human Activity Recognition

要約

人間の行動認識(Human Activity Recognition: HAR)は、オンボディデバイスを用いて、制約のない環境において人間の特定の行動を認識するものである。HARは、人間の動作の相互・内部変動のために困難であり、さらに、オンボディデバイスからの注釈付きデータセットが不足している。この問題は主に、データ作成の難しさ、すなわち、記録、高価なアノテーション、人間活動の標準的な定義の欠如に起因している。これまでの研究により、転移学習はデータが乏しいシナリオに対処するための良い戦略であることが示された。しかし、アノテーションされたオンボディデバイスのデータセットの希少性は依然として残っている。本稿では、人間の姿勢推定を目的としたデータセットを転移学習のソースとして使用することを提案する。具体的には、ビデオデータセットから人間の関節の注釈付きピクセル座標のシーケンスをHARと人間の姿勢推定に展開する。我々は、4つのベンチマークビデオベースのソースデータセットでディープアーキテクチャを事前学習させる。最後に、HARのパフォーマンスを向上させる3つのオンボディデバイスデータセットで評価を行う。

要約(オリジナル)

Human Activity Recognition (HAR) using on-body devices identifies specific human actions in unconstrained environments. HAR is challenging due to the inter and intra-variance of human movements; moreover, annotated datasets from on-body devices are scarce. This problem is mainly due to the difficulty of data creation, i.e., recording, expensive annotation, and lack of standard definitions of human activities. Previous works demonstrated that transfer learning is a good strategy for addressing scenarios with scarce data. However, the scarcity of annotated on-body device datasets remains. This paper proposes using datasets intended for human-pose estimation as a source for transfer learning; specifically, it deploys sequences of annotated pixel coordinates of human joints from video datasets for HAR and human pose estimation. We pre-train a deep architecture on four benchmark video-based source datasets. Finally, an evaluation is carried out on three on-body device datasets improving HAR performance.

arxiv情報

著者 Shrutarv Awasthi,Fernando Moya Rueda,Gernot A. Fink
発行日 2022-12-02 18:19:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク