YOWOv3: An Efficient and Generalized Framework for Human Action Detection and Recognition

要約

この論文では、YOWOv3 と呼ばれる新しいフレームワークを提案します。これは、YOWOv2 の改良版であり、特に人間の行動の検出と認識のタスクのために設計されています。
このフレームワークは、さまざまな構成での広範な実験を容易にするように設計されており、モデル内のさまざまなコンポーネントの簡単なカスタマイズをサポートして、コードの理解と変更に必要な労力を軽減します。
YOWOv3 は、人間の動作の検出と認識に広く使用されている 2 つのデータセット、UCF101-24 および AVAv2.2 で、YOWOv2 と比較して優れたパフォーマンスを示します。
具体的には、前モデルの YOWOv2 は、1 億 970 万のパラメータと 53.6 GFLOP で、UCF101-24 と AVAv2.2 でそれぞれ 85.2% と 20.3% の mAP を達成しています。
対照的に、私たちのモデル YOWOv3 は、パラメータが 5,980 万個、GFLOPS が 39.8 のみで、UCF101-24 と AVAv2.2 でそれぞれ 88.33% と 20.31% の mAP を達成します。
結果は、YOWOv3 が同等のパフォーマンスを達成しながら、パラメーターと GFLOP の数を大幅に削減していることを示しています。

要約(オリジナル)

In this paper, we propose a new framework called YOWOv3, which is an improved version of YOWOv2, designed specifically for the task of Human Action Detection and Recognition. This framework is designed to facilitate extensive experimentation with different configurations and supports easy customization of various components within the model, reducing efforts required for understanding and modifying the code. YOWOv3 demonstrates its superior performance compared to YOWOv2 on two widely used datasets for Human Action Detection and Recognition: UCF101-24 and AVAv2.2. Specifically, the predecessor model YOWOv2 achieves an mAP of 85.2% and 20.3% on UCF101-24 and AVAv2.2, respectively, with 109.7M parameters and 53.6 GFLOPs. In contrast, our model – YOWOv3, with only 59.8M parameters and 39.8 GFLOPs, achieves an mAP of 88.33% and 20.31% on UCF101-24 and AVAv2.2, respectively. The results demonstrate that YOWOv3 significantly reduces the number of parameters and GFLOPs while still achieving comparable performance.

arxiv情報

著者 Duc Manh Nguyen Dang,Viet Hang Duong,Jia Ching Wang,Nhan Bui Duc
発行日 2024-08-05 16:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク