Tubelet-Contrastive Self-Supervision for Video-Efficient Generalization

要約

動きに焦点を当てたビデオ表現を学習するための自己教師ありの方法を提案します。
既存のアプローチでは、時間的に拡張されたビデオ間の距離が最小限に抑えられ、高い空間的類似性が維持されます。
代わりに、ローカル モーション ダイナミクスは同一だが、外観が異なるビデオ間の類似点を学習することを提案します。
これを行うには、チューブレットと呼ばれる合成モーション軌跡をビデオに追加します。
さまざまなチューブレットの動きをシミュレートし、スケーリングや回転などの変換を適用することで、事前トレーニング データに存在するものを超える動きパターンを導入します。
これにより、驚くほどデータ効率の高いビデオ表現を学習できるようになります。私たちのアプローチでは、事前トレーニング ビデオの 25\% のみを使用してもパフォーマンスが維持されます。
10 の多様な下流設定での実験により、当社の競争力のあるパフォーマンスと、新しいドメインやきめ細かいアクションへの汎用性が実証されました。

要約(オリジナル)

We propose a self-supervised method for learning motion-focused video representations. Existing approaches minimize distances between temporally augmented videos, which maintain high spatial similarity. We instead propose to learn similarities between videos with identical local motion dynamics but an otherwise different appearance. We do so by adding synthetic motion trajectories to videos which we refer to as tubelets. By simulating different tubelet motions and applying transformations, such as scaling and rotation, we introduce motion patterns beyond what is present in the pretraining data. This allows us to learn a video representation that is remarkably data efficient: our approach maintains performance when using only 25\% of the pretraining videos. Experiments on 10 diverse downstream settings demonstrate our competitive performance and generalizability to new domains and fine-grained actions.

arxiv情報

著者 Fida Mohammad Thoker,Hazel Doughty,Cees Snoek
発行日 2023-09-28 14:43:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク