Collaboratively Self-supervised Video Representation Learning for Action Recognition

要約

アクション認識と人間のポーズ推定との密接な関係を考慮して、私たちは、生成ポーズ予測と識別コンテキストマッチングを事前のタスクとして一致させることにより、アクション認識に固有の共同自己監視ビデオ表現(CSVR)学習フレームワークを設計します。
具体的には、私たちのCSVRは、生成ポーズ予測ブランチ、識別コンテキストマッチングブランチ、およびビデオ生成ブランチの3つのブランチで構成されています。
その中で、最初のものは条件付きガンを利用して将来のフレームの人間のポーズを予測することにより動的モーション機能をエンコードし、2番目のブランチは、ポジティブとネガティブビデオ機能とIフレーム機能ペアを対照することにより静的コンテキスト機能を抽出します。
3番目のブランチは、動的モーション機能と静的コンテキスト機能を協力して改善する目的で、現在と将来のビデオフレームの両方を生成するように設計されています。
広範な実験は、私たちの方法が複数の一般的なビデオデータセットで最新のパフォーマンスを達成することを示しています。

要約(オリジナル)

Considering the close connection between action recognition and human pose estimation, we design a Collaboratively Self-supervised Video Representation (CSVR) learning framework specific to action recognition by jointly factoring in generative pose prediction and discriminative context matching as pretext tasks. Specifically, our CSVR consists of three branches: a generative pose prediction branch, a discriminative context matching branch, and a video generating branch. Among them, the first one encodes dynamic motion feature by utilizing Conditional-GAN to predict the human poses of future frames, and the second branch extracts static context features by contrasting positive and negative video feature and I-frame feature pairs. The third branch is designed to generate both current and future video frames, for the purpose of collaboratively improving dynamic motion features and static context features. Extensive experiments demonstrate that our method achieves state-of-the-art performance on multiple popular video datasets.

arxiv情報

著者 Jie Zhang,Zhifan Wan,Lanqing Hu,Stephen Lin,Shuzhe Wu,Shiguang Shan
発行日 2025-01-31 14:33:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク