要約
ビデオ内の人間の動作認識は、監視、スポーツ分析、ヘルスケアなどの多くのアプリケーションに重大な影響を与える重要なタスクです。
課題は、認識能力の精度と実用に十分な効率性を兼ね備えたモデルを作成することにあります。
この研究では、この課題に対処するために、さまざまな深層学習モデルの詳細な分析を実施しています。
UCF101 ビデオ データセットのサブセットを利用して、畳み込みニューラル ネットワーク (CNN)、リカレント ニューラル ネットワーク (RNN)、および 2 ストリーム ConvNet に焦点を当てます。
この研究では、CNN が空間特徴を効果的にキャプチャし、RNN が時間シーケンスをエンコードするのに対し、Two-Stream ConvNet は空間次元と時間次元を統合することで優れたパフォーマンスを発揮することが明らかになりました。
これらの洞察は、精度、精度、再現率、F1 スコアの評価指標から抽出されます。
この研究の結果は、堅牢な人間の行動認識を実現する複合モデルの可能性を強調し、これらのモデルを現実世界での展開に最適化するための将来の研究への道を示唆しています。
要約(オリジナル)
Human action recognition in videos is a critical task with significant implications for numerous applications, including surveillance, sports analytics, and healthcare. The challenge lies in creating models that are both precise in their recognition capabilities and efficient enough for practical use. This study conducts an in-depth analysis of various deep learning models to address this challenge. Utilizing a subset of the UCF101 Videos dataset, we focus on Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), and Two-Stream ConvNets. The research reveals that while CNNs effectively capture spatial features and RNNs encode temporal sequences, Two-Stream ConvNets exhibit superior performance by integrating spatial and temporal dimensions. These insights are distilled from the evaluation metrics of accuracy, precision, recall, and F1-score. The results of this study underscore the potential of composite models in achieving robust human action recognition and suggest avenues for future research in optimizing these models for real-world deployment.
arxiv情報
著者 | Yufei Xie |
発行日 | 2024-03-11 15:31:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google