TadML: A fast temporal action detection with Mechanics-MLP

要約

時間的行動検出(TAD)は、映像理解において重要だが困難なタスクである。TADは、トリミングされていない長い映像中の各行動インスタンスの種類と開始終了フレームの両方を検出することを目的としている。したがって、元のRGBフレームは、追加の計算と時間コストを伴うOptical-Flowフレームに手動で変換する必要があり、リアルタイム処理を実現する障害となっている。現在、多くのモデルは2段階戦略を採用しているが、これは推論速度を低下させ、プロポーザル生成に複雑なチューニングを行うことになる。これと比較して、我々はRGBストリームのみを用いた1段階のアンカーフリー時間的定位法を提案する。この手法は、既存のすべての最先端モデルと同等の精度を持つ一方で、これらの手法の推論速度を大きく上回る。本論文の典型的な推論速度は、THUMOS14で4.44ビデオ/秒という驚異的なものである。オプティカルフローを変換する必要がないため、アプリケーションでの推論速度はより速くなります。また、MLPがTADのような下流タスクにおいて大きな可能性を秘めていることを証明しています。ソースコードは https://github.com/BonedDeng/TadML にあります。

要約(オリジナル)

Temporal Action Detection(TAD) is a crucial but challenging task in video understanding.It is aimed at detecting both the type and start-end frame for each action instance in a long, untrimmed video.Most current models adopt both RGB and Optical-Flow streams for the TAD task. Thus, original RGB frames must be converted manually into Optical-Flow frames with additional computation and time cost, which is an obstacle to achieve real-time processing. At present, many models adopt two-stage strategies, which would slow the inference speed down and complicatedly tuning on proposals generating.By comparison, we propose a one-stage anchor-free temporal localization method with RGB stream only, in which a novel Newtonian Mechanics-MLP architecture is established. It has comparable accuracy with all existing state-of-the-art models, while surpasses the inference speed of these methods by a large margin. The typical inference speed in this paper is astounding 4.44 video per second on THUMOS14. In applications, because there is no need to convert optical flow, the inference speed will be faster.It also proves that MLP has great potential in downstream tasks such as TAD. The source code is available at https://github.com/BonedDeng/TadML

arxiv情報

著者 Bowen Deng,Dongchang Liu
発行日 2024-02-02 17:11:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク