Self-supervised and Weakly Supervised Contrastive Learning for Frame-wise Action Representations

要約

行動表現学習に関するこれまでの研究は、短いビデオクリップに対するグローバルな表現に焦点を当てたものであった。これに対し、ビデオアライメントなどの多くの実用的なアプリケーションでは、長いビデオの集中的な表現を学習することが強く求められている。本論文では、特に長時間の動画像に対して、自己教師ありまたは弱教師ありでフレーム単位の行動表現を学習する、対比的行動表現学習(CARL)の新しいフレームワークを紹介する。具体的には、畳み込みと変換を組み合わせることで、空間的文脈と時間的文脈の両方を考慮した、シンプルかつ効果的なビデオエンコーダを導入する。近年の自己教師付き学習の大規模な進歩に触発され、我々は一連の時空間データを拡張して得られた2つの関連するビューに適用する新しいシーケンスコントラスト損失(SCL)を2つのバージョンで提案する。一つは自己教師付きバージョンで、拡張された二つのビューのシーケンス類似度とタイムスタンプ距離の事前ガウス分布の間のKL-ダイバージェンスを最小化することにより、埋め込み空間を最適化するものである。もう一つは,ビデオレベルのラベルを用いたDTW(Dynamic Time Wraping)により,ビデオ間のサンプルペアをより多く構築する弱教師付きバージョンである.FineGym, PennAction, Pouringの各データセットで実験を行った結果,本手法は下流の細かいアクション分類と高速な推論において,従来の最先端技術よりも大きなマージンをもって優れていることが示された.また、意外なことに、従来の手法のようにペア動画を用いた学習を行わないにも関わらず、我々の自己教師付き手法は動画の位置合わせや細かなフレーム検索においても優れた性能を示すことがわかった。

要約(オリジナル)

Previous work on action representation learning focused on global representations for short video clips. In contrast, many practical applications, such as video alignment, strongly demand learning the intensive representation of long videos. In this paper, we introduce a new framework of contrastive action representation learning (CARL) to learn frame-wise action representation in a self-supervised or weakly-supervised manner, especially for long videos. Specifically, we introduce a simple but effective video encoder that considers both spatial and temporal context by combining convolution and transformer. Inspired by the recent massive progress in self-supervised learning, we propose a new sequence contrast loss (SCL) applied to two related views obtained by expanding a series of spatio-temporal data in two versions. One is the self-supervised version that optimizes embedding space by minimizing KL-divergence between sequence similarity of two augmented views and prior Gaussian distribution of timestamp distance. The other is the weakly-supervised version that builds more sample pairs among videos using video-level labels by dynamic time wrapping (DTW). Experiments on FineGym, PennAction, and Pouring datasets show that our method outperforms previous state-of-the-art by a large margin for downstream fine-grained action classification and even faster inference. Surprisingly, although without training on paired videos like in previous works, our self-supervised version also shows outstanding performance in video alignment and fine-grained frame retrieval tasks.

arxiv情報

著者 Minghao Chen,Renbo Tu,Chenxi Huang,Yuqi Lin,Boxi Wu,Deng Cai
発行日 2022-12-06 16:42:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク