要約
アクション認識は、シーンのアクターとオブジェクトにわたる複雑な相互作用を学習することによって、ビデオ内のアクションを識別する必要がある重要な問題です。
ただし、最新のディープラーニング ベースのネットワークは、多くの場合、大量の計算を必要とし、さまざまなモダリティを使用してシーン コンテキストをキャプチャする可能性があるため、計算コストがさらに増加します。
AR/VR に使用されるような効率的な手法では、多くの場合人間のキーポイント情報のみが使用されますが、シーンのコンテキストが失われ、精度が損なわれます。
この論文では、追跡とアクション認識にキーポイント データのみを使用するアクション位置特定手法 KeyNet について説明します。
具体的には、KeyNet では、シーン内のコンテキストをキャプチャするためにオブジェクト ベースのキーポイント情報の使用が導入されています。
私たちの方法は、RGB 情報を使用せずにオブジェクトと人間のキーポイントからシーン内の高次のインタラクションをモデル化できる構造化された中間表現を構築する方法を示しています。
KeyNet はわずか 5 FPS で人間の行動を追跡および分類できることがわかりました。
さらに重要なのは、AVA アクションと Kinetics データセット上でキーポイント情報を使用することによるコンテキストの損失を回復するために、オブジェクト キーポイントをモデル化できることを実証します。
要約(オリジナル)
Action recognition is an important problem that requires identifying actions in video by learning complex interactions across scene actors and objects. However, modern deep-learning based networks often require significant computation, and may capture scene context using various modalities that further increases compute costs. Efficient methods such as those used for AR/VR often only use human-keypoint information but suffer from a loss of scene context that hurts accuracy. In this paper, we describe an action-localization method, KeyNet, that uses only the keypoint data for tracking and action recognition. Specifically, KeyNet introduces the use of object based keypoint information to capture context in the scene. Our method illustrates how to build a structured intermediate representation that allows modeling higher-order interactions in the scene from object and human keypoints without using any RGB information. We find that KeyNet is able to track and classify human actions at just 5 FPS. More importantly, we demonstrate that object keypoints can be modeled to recover any loss in context from using keypoint information over AVA action and Kinetics datasets.
arxiv情報
著者 | Yi Huang,Asim Kadav,Farley Lai,Deep Patel,Hans Peter Graf |
発行日 | 2023-05-16 15:30:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google