要約
混沌としたシーンにおける時空間的なアクションの位置特定というタスクは、高度なビデオ理解に向けた困難なタスクです。
高品質ビデオ特徴抽出への道を切り開き、検出器によって予測されたアンカーの精度を向上させることで、モデルのパフォーマンスを効果的に向上させることができます。
この目的を達成するために、アンカー枝刈り戦略を備えた高性能デュアルストリーム時空間特徴抽出ネットワーク SFMViT を提案します。
当社の SFMViT のバックボーンは、ViT と時空間アクションの位置特定に関する事前知識を備えた SlowFast で構成されており、ViT の優れたグローバル特徴抽出機能と SlowFast の時空間シーケンス モデリング機能を最大限に活用しています。
次に、信頼最大ヒープを導入して、画像の各フレームで検出されたアンカーを取り除き、有効なアンカーを除外します。
これらの設計により、当社の SFMViT は Chaotic World データセットで 26.62% の mAP を達成でき、既存のモデルを大幅に上回ります。
コードは https://github.com/jfightyr/SlowFast-Meet-ViT で入手できます。
要約(オリジナル)
The task of spatiotemporal action localization in chaotic scenes is a challenging task toward advanced video understanding. Paving the way with high-quality video feature extraction and enhancing the precision of detector-predicted anchors can effectively improve model performance. To this end, we propose a high-performance dual-stream spatiotemporal feature extraction network SFMViT with an anchor pruning strategy. The backbone of our SFMViT is composed of ViT and SlowFast with prior knowledge of spatiotemporal action localization, which fully utilizes ViT’s excellent global feature extraction capabilities and SlowFast’s spatiotemporal sequence modeling capabilities. Secondly, we introduce the confidence maximum heap to prune the anchors detected in each frame of the picture to filter out the effective anchors. These designs enable our SFMViT to achieve a mAP of 26.62% in the Chaotic World dataset, far exceeding existing models. Code is available at https://github.com/jfightyr/SlowFast-Meet-ViT.
arxiv情報
著者 | Jiaying Lin,Jiajun Wen,Mengyuan Liu,Jinfu Liu,Baiqiao Yin,Yue Li |
発行日 | 2024-04-25 13:49:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google