要約
ヒューマンアクション認識(Human Action Recognition: HAR)は、身体的・精神的な影響を受けた高齢者や障害者の活動を監視するために使用される、ヒューマンコンピュータインタラクションにおける興味深い研究分野である。近年、骨格データを用いたHARが注目されているのは、骨格データが、印象、体格、カメラビュー、複雑な背景の変化に対応できることが示されているからである。ST-GCNの大きな特徴の一つは、スケルトンシーケンスから空間的・時間的パターンを自動的に学習することである。この方法は、受容野が限られているため、短距離相関にしか使えないという限界がある。その結果、人間の行動を理解するには、長距離の相互接続が必要となる。この問題に対処するため、我々は空間-時間相対変換器ST-RTRモデルを開発した。ST-RTRは共同ノードと中継ノードを含み、ネットワーク内での効率的な通信とデータ伝送を可能にする。これらのノードは固有の空間的・時間的スケルトントポロジーを崩すのに役立ち、このモデルは長距離の人間の行動をより良く理解することを可能にする。さらに、ST-RTRを融合モデルと組み合わせることで、さらなる性能向上を図る。ST-RTR法の性能を評価するために、3つのスケルトンベースのHARベンチマークで実験を行った:NTU RGB+D 60、NTU RGB+D 120、UAV-Humanである。その結果、NTU RGB+D 60ではCSが2.11%、CVが1.45%、NTU RGB+D 120ではCSが1.25%、CVが1.05%向上した。UAV-Humanデータセットでは、精度が2.54%向上した。実験結果から、提案したST-RTRモデルは、標準的なST-GCN手法と比較して、行動認識を大幅に改善することが説明できる。
要約(オリジナル)
Human Action Recognition (HAR) is an interesting research area in human-computer interaction used to monitor the activities of elderly and disabled individuals affected by physical and mental health. In the recent era, skeleton-based HAR has received much attention because skeleton data has shown that it can handle changes in striking, body size, camera views, and complex backgrounds. One key characteristic of ST-GCN is automatically learning spatial and temporal patterns from skeleton sequences. It has some limitations, as this method only works for short-range correlation due to its limited receptive field. Consequently, understanding human action requires long-range interconnection. To address this issue, we developed a spatial-temporal relative transformer ST-RTR model. The ST-RTR includes joint and relay nodes, which allow efficient communication and data transmission within the network. These nodes help to break the inherent spatial and temporal skeleton topologies, which enables the model to understand long-range human action better. Furthermore, we combine ST-RTR with a fusion model for further performance improvements. To assess the performance of the ST-RTR method, we conducted experiments on three skeleton-based HAR benchmarks: NTU RGB+D 60, NTU RGB+D 120, and UAV-Human. It boosted CS and CV by 2.11 % and 1.45% on NTU RGB+D 60, 1.25% and 1.05% on NTU RGB+D 120. On UAV-Human datasets, accuracy improved by 2.54%. The experimental outcomes explain that the proposed ST-RTR model significantly improves action recognition associated with the standard ST-GCN method.
arxiv情報
著者 | Faisal Mehmood,Enqing Chen,Touqeer Abbas,Samah M. Alzanin |
発行日 | 2024-11-01 07:25:38+00:00 |
arxivサイト | arxiv_id(pdf) |