要約
低レベルのビデオ分析では、ビデオ フレーム間の対応関係を導き出すために効果的な表現が重要です。
これらの表現は、最近の研究で慎重に設計された口実タスクを使用して、ラベルのない画像やビデオから自己教師付きで学習されています。
しかし、以前の研究は、空間識別特徴または時間反復特徴のいずれかに焦点を当てており、空間手がかりと時間手がかりの間の相乗効果にはほとんど注意を払っていませんでした。
この問題に対処するために、私たちは空間と時間の自己教師あり学習方法を提案します。
具体的には、最初に対照学習によってラベルのない画像から空間特徴を抽出し、次に再構成学習によってラベルのないビデオの時間的手がかりを利用することで特徴を強化します。
2 番目のステップでは、空間的手がかりを忘れないように学習するための大域的な相関蒸留損失と、再構成に悪影響を与える時間的不連続性に対処するための局所的な相関蒸留損失を設計します。
提案された方法は、一連の対応ベースのビデオ分析タスクの実験結果によって確立されているように、最先端の自己教師あり方法よりも優れています。
また、2 段階設計の有効性と蒸留損失を検証するためにアブレーション研究も実施しました。
要約(オリジナル)
In low-level video analyses, effective representations are important to derive the correspondences between video frames. These representations have been learned in a self-supervised fashion from unlabeled images or videos, using carefully designed pretext tasks in some recent studies. However, the previous work concentrates on either spatial-discriminative features or temporal-repetitive features, with little attention to the synergy between spatial and temporal cues. To address this issue, we propose a spatial-then-temporal self-supervised learning method. Specifically, we firstly extract spatial features from unlabeled images via contrastive learning, and secondly enhance the features by exploiting the temporal cues in unlabeled videos via reconstructive learning. In the second step, we design a global correlation distillation loss to ensure the learning not to forget the spatial cues, and a local correlation distillation loss to combat the temporal discontinuity that harms the reconstruction. The proposed method outperforms the state-of-the-art self-supervised methods, as established by the experimental results on a series of correspondence-based video analysis tasks. Also, we performed ablation studies to verify the effectiveness of the two-step design as well as the distillation losses.
arxiv情報
著者 | Rui Li,Dong Liu |
発行日 | 2023-06-22 05:44:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google