Generating Virtual On-body Accelerometer Data from Virtual Textual Descriptions for Human Activity Recognition

要約

タイトル:人間活動認識のためのバーチャルテキスト記述からのバーチャルボディ加速度計データの生成

要約:

– 人間活動認識の強力で汎用的なモデルの開発は、大規模でラベル付けされたデータセットが不足しているため、妨げられてきた。
– コンピュータビジョン技術を使用してビデオから抽出されたバーチャルIMUデータが、現実のIMUデータの小さな部分と組み合わせてHARモデルのトレーニングに使用されると、顕著な性能向上が見られることが示されている。
– テキスト記述からのモーション合成の最近の進歩と、大規模言語モデル(LLM)を様々なAIモデルに接続するという進展に着想を得て、自動化されたパイプラインを紹介する。
– このパイプラインは、まずChatGPTを使用して活動の多様なテキスト記述を生成し、これらのテキスト記述を使用してT2M-GPTと呼ばれるモーション合成モデルを介して3Dヒューマンモーションシーケンスを生成し、後にバーチャルIMUデータのストリームに変換する。
– 新しいアプローチで生成されたバーチャルIMUトレーニングデータを使用すると、3つのHARデータセット(RealWorld、PAMAP2、およびUSC-HAD)での評価において、実際のIMUデータのみを使用する場合に比べ、大幅に改善されたHARモデルの性能が示された。
– このアプローチは、異なるセンサーデータ間での転移学習方法の成長する分野に貢献し、手動の努力を必要としないバーチャルトレーニングデータの生成によってHARモデルが改善される方法を示している。

要約(オリジナル)

The development of robust, generalized models in human activity recognition (HAR) has been hindered by the scarcity of large-scale, labeled data sets. Recent work has shown that virtual IMU data extracted from videos using computer vision techniques can lead to substantial performance improvements when training HAR models combined with small portions of real IMU data. Inspired by recent advances in motion synthesis from textual descriptions and connecting Large Language Models (LLMs) to various AI models, we introduce an automated pipeline that first uses ChatGPT to generate diverse textual descriptions of activities. These textual descriptions are then used to generate 3D human motion sequences via a motion synthesis model, T2M-GPT, and later converted to streams of virtual IMU data. We benchmarked our approach on three HAR datasets (RealWorld, PAMAP2, and USC-HAD) and demonstrate that the use of virtual IMU training data generated using our new approach leads to significantly improved HAR model performance compared to only using real IMU data. Our approach contributes to the growing field of cross-modality transfer methods and illustrate how HAR models can be improved through the generation of virtual training data that do not require any manual effort.

arxiv情報

著者 Zikang Leng,Hyeokhyen Kwon,Thomas Plötz
発行日 2023-05-04 22:14:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク