要約
動画像行動認識は数年前から活発な研究分野であるが、ゼロショット行動認識は最近になってようやく普及し始めたところである。本研究では、3D-CNNを用いた既存のアプローチとは異なり、長距離の時空間依存性を効率的に捉えることができる、新しいエンドツーエンド学習型変換モデルを提案する。さらに、既存研究に共通する、未見とみなせるクラスについての曖昧さを解決するために、学習クラスとテストクラスの重複を避けることで、行動認識のためのゼロショット学習の前提を満たす新しい実験設定を提案する。提案手法は、UCF-101、HMDB-51、ActivityNetの各データセットにおいて、ゼロショット行動認識の上位1位の精度を達成し、ゼロショット行動認識の最先端技術を著しく凌駕する。コードと提案する実験設定はGitHubで公開されています: https://github.com/Secure-and-Intelligent-Systems-Lab/SemanticVideoTransformer
要約(オリジナル)
While video action recognition has been an active area of research for several years, zero-shot action recognition has only recently started gaining traction. In this work, we propose a novel end-to-end trained transformer model which is capable of capturing long range spatiotemporal dependencies efficiently, contrary to existing approaches which use 3D-CNNs. Moreover, to address a common ambiguity in the existing works about classes that can be considered as previously unseen, we propose a new experimentation setup that satisfies the zero-shot learning premise for action recognition by avoiding overlap between the training and testing classes. The proposed approach significantly outperforms the state of the arts in zero-shot action recognition in terms of the the top-1 accuracy on UCF-101, HMDB-51 and ActivityNet datasets. The code and proposed experimentation setup are available in GitHub: https://github.com/Secure-and-Intelligent-Systems-Lab/SemanticVideoTransformer
arxiv情報
著者 | Keval Doshi,Yasin Yilmaz |
発行日 | 2022-12-02 14:55:09+00:00 |
arxivサイト | arxiv_id(pdf) |