要約
このテクニカル レポートでは、時空間アクション検出のリアルタイム手法である YOWO の更新について紹介します。
より良いものにするために、多くの小さなデザイン変更を行います。
ネットワーク構造については、3D-ResNext-101 や YOLOv2 など、公式に実装された YOLO と同じものを使用しますが、公式の YOLOv2 よりも優れた、再実装された YOLOv2 のより優れた事前トレーニング済みの重みを使用します。
また、YOWO で使用されるラベルの割り当ても最適化します。
アクション インスタンスを正確に検出するために、ボックス回帰の GIOU 損失を展開します。
漸進的な改善の後、YOWO は UCF101-24 で 84.9\% のフレーム mAP と 50.5\% のビデオ mAP を達成し、公式の YOWO よりも大幅に高くなりました。
AVA では、最適化された YOWO は 16 フレームで 20.6\% フレーム mAP を達成し、これも公式の YOWO を上回っています。
32 フレームで、当社の YOWO は RTX 3090 GPU で 25 FPS で 21.6 フレームの mAP を達成します。
最適化されたYOWOをYOWO-Plusと名付けました。
さらに、3D-ResNext-101 を効率的な 3D-ShuffleNet-v2 に置き換えて、軽量のアクション検出器である YOWO-Nano を設計します。
YOWO-Nano は、UCF101-24 で 90 FPS を超える 81.0 \% フレーム mAP および 49.7\% ビデオ フレーム mAP を達成します。
また、AVA で約 90 FPS で 18.4 \% フレーム mAP を達成します。
私たちが知る限り、YOWO-Nano は最先端のアクション検出器で最速です。
コードは https://github.com/yjh0410/PyTorch_YOWO で入手できます。
要約(オリジナル)
In this technical report, we would like to introduce our updates to YOWO, a real-time method for spatio-temporal action detection. We make a bunch of little design changes to make it better. For network structure, we use the same ones of official implemented YOWO, including 3D-ResNext-101 and YOLOv2, but we use a better pretrained weight of our reimplemented YOLOv2, which is better than the official YOLOv2. We also optimize the label assignment used in YOWO. To accurately detection action instances, we deploy GIoU loss for box regression. After our incremental improvement, YOWO achieves 84.9\% frame mAP and 50.5\% video mAP on the UCF101-24, significantly higher than the official YOWO. On the AVA, our optimized YOWO achieves 20.6\% frame mAP with 16 frames, also exceeding the official YOWO. With 32 frames, our YOWO achieves 21.6 frame mAP with 25 FPS on an RTX 3090 GPU. We name the optimized YOWO as YOWO-Plus. Moreover, we replace the 3D-ResNext-101 with the efficient 3D-ShuffleNet-v2 to design a lightweight action detector, YOWO-Nano. YOWO-Nano achieves 81.0 \% frame mAP and 49.7\% video frame mAP with over 90 FPS on the UCF101-24. It also achieves 18.4 \% frame mAP with about 90 FPS on the AVA. As far as we know, YOWO-Nano is the fastest state-of-the-art action detector. Our code is available on https://github.com/yjh0410/PyTorch_YOWO.
arxiv情報
著者 | Jianhua Yang |
発行日 | 2022-10-20 12:51:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google