Transformer-based Action recognition in hand-object interacting scenarios

要約

このレポートでは、Egocentric and Multi-view Cameras Challenge: Action Recognition の ECCV 2022 Human Body, Hands, and Activities (HBHA) に対する 2 位のソリューションについて説明します。
この課題は、自己中心的なビューで手とオブジェクトの相互作用を認識することを目的としています。
Transformer ベースのキーポイント推定器を使用して両手とオブジェクトのキーポイントを推定し、推定されたキーポイントに基づいてアクションを認識するフレームワークを提案します。
テストセットで 87.19% のトップ 1 精度を達成しました。

要約(オリジナル)

This report describes the 2nd place solution to the ECCV 2022 Human Body, Hands, and Activities (HBHA) from Egocentric and Multi-view Cameras Challenge: Action Recognition. This challenge aims to recognize hand-object interaction in an egocentric view. We propose a framework that estimates keypoints of two hands and an object with a Transformer-based keypoint estimator and recognizes actions based on the estimated keypoints. We achieved a top-1 accuracy of 87.19% on the testset.

arxiv情報

著者 Hoseong Cho,Seungryul Baek
発行日 2022-10-20 16:27:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク