要約
この研究の目的は、視覚障害者や視覚障害者を支援するために舞台上で行われる人間の動作を認識することです。
これを実現するために、深度画像によって取得されたスケルトンデータを入力として使用する劇場の人間の動作認識システムを作成しました。
私たちは、劇場環境で人間の行動の新しいサンプルを収集し、スケルトンベースの人間の行動認識のために事前にトレーニングされた 3 つの時空間グラフ畳み込みネットワーク (時空間グラフ畳み込みネットワーク、2 ストリーム) を使用して転移学習手法をテストしました。
適応グラフ畳み込みネットワーク、およびマルチスケール解絡統合グラフ畳み込みネットワーク。
NTU-RGBD ヒューマン アクション ベンチマークをソース ドメインとして選択し、収集したデータセットをターゲット ドメインとして使用しました。
私たちは、事前トレーニングされたモデルの転移可能性を分析し、ソースドメインとターゲットドメイン間の多様性に転移学習技術を適用して適応させるための 2 つの構成を提案しました。
転移学習の使用は、演劇の文脈における人間の行動システムのパフォーマンスを向上させるのに役立ちました。
結果は、時空間グラフ畳み込みネットワークが積極的に転送され、転送学習なしのベースラインと比較してパフォーマンスが向上したことを示しています。
要約(オリジナル)
The aim of this research is to recognize human actions performed on stage to aid visually impaired and blind individuals. To achieve this, we have created a theatre human action recognition system that uses skeleton data captured by depth image as input. We collected new samples of human actions in a theatre environment, and then tested the transfer learning technique with three pre-trained Spatio-Temporal Graph Convolution Networks for skeleton-based human action recognition: the spatio-temporal graph convolution network, the two-stream adaptive graph convolution network, and the multi-scale disentangled unified graph convolution network. We selected the NTU-RGBD human action benchmark as the source domain and used our collected dataset as the target domain. We analyzed the transferability of the pre-trained models and proposed two configurations to apply and adapt the transfer learning technique to the diversity between the source and target domains. The use of transfer learning helped to improve the performance of the human action system within the context of theatre. The results indicate that Spatio-Temporal Graph Convolution Networks is positively transferred, and there was an improvement in performance compared to the baseline without transfer learning.
arxiv情報
著者 | Leyla Benhamida,Slimane Larabi |
発行日 | 2023-06-28 16:40:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google