要約
低レベルのビデオ分析では、ビデオ フレーム間の対応を導き出すために効果的な表現が重要です。
これらの表現は、いくつかの最近の研究で慎重に設計された口実タスクを使用して、ラベルのない画像/ビデオから自己管理された方法で学習されました。
ただし、以前の作業は、空間識別機能または時間反復機能のいずれかに集中しており、空間手がかりと時間手がかりの間の相乗効果にはほとんど注意を払っていません。
この問題に対処するために、新しい空間、次に時間の自己教師あり学習方法を提案します。
具体的には、最初に対照学習を介してラベルのない画像から空間的特徴を抽出し、次に再構成学習を介してラベルのないビデオの時間的手がかりを利用して特徴を強化します。
2 番目のステップでは、グローバルな相関蒸留損失を設計して、学習が空間的な手がかりを忘れないようにし、ローカル相関蒸留損失を設計して、再構成に害を及ぼす一時的な不連続性に対処します。
提案された方法は、一連の通信ベースのビデオ分析タスクに関する実験結果によって確立されるように、最先端の自己教師あり方法よりも優れています。
また、アブレーション研究を実施して、2 段階設計の有効性と蒸留損失を検証しました。
要約(オリジナル)
In low-level video analyses, effective representations are important to derive the correspondences between video frames. These representations have been learned in a self-supervised fashion from unlabeled images/videos, using carefully designed pretext tasks in some recent studies. However, the previous work concentrates on either spatial-discriminative features or temporal-repetitive features, with little attention to the synergy between spatial and temporal cues. To address this issue, we propose a novel spatial-then-temporal self-supervised learning method. Specifically, we firstly extract spatial features from unlabeled images via contrastive learning, and secondly enhance the features by exploiting the temporal cues in unlabeled videos via reconstructive learning. In the second step, we design a global correlation distillation loss to ensure the learning not to forget the spatial cues, and we design a local correlation distillation loss to combat the temporal discontinuity that harms the reconstruction. The proposed method outperforms the state-of-the-art self-supervised methods, as established by the experimental results on a series of correspondence-based video analysis tasks. Also, we performed ablation studies to verify the effectiveness of the two-step design as well as the distillation losses.
arxiv情報
著者 | Rui Li,Dong Liu |
発行日 | 2022-11-21 17:31:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google