Self-Supervised Video Similarity Learning

要約

自己監視によるビデオ類似性学習アプローチである S$^2$VS を紹介します。
自己教師あり学習 (SSL) は通常、微調整後にターゲット タスクに強力な転送性を持たせるために、プロキシ タスクでディープ モデルをトレーニングするために使用されます。
ここでは、以前の研究とは対照的に、SSL を使用してビデオ類似性学習を実行し、ラベル付きデータを使用せずに複数の検索および検出タスクを一度に処理します。
これは、タスクに合わせた拡張と、広く使用されている InfoNCE 損失と、自己相似性およびハードネガティブ類似性に共同して作用する追加の損失を組み合わせたインスタンス弁別を介した学習によって実現されます。
私たちは、ビデオのコピーから同じ事件や出来事を描いたビデオに至るまで、ビデオの関連性がさまざまな粒度で定義されるタスクでメソッドのベンチマークを行います。
私たちは、ラベル付きデータを使用する以前に提案された方法を超え、すべてのタスクで最先端のパフォーマンスを達成する単一の汎用モデルを学習します。
コードと事前トレーニングされたモデルは、https://github.com/gkordo/s2vs で公開されています。

要約(オリジナル)

We introduce S$^2$VS, a video similarity learning approach with self-supervision. Self-Supervised Learning (SSL) is typically used to train deep models on a proxy task so as to have strong transferability on target tasks after fine-tuning. Here, in contrast to prior work, SSL is used to perform video similarity learning and address multiple retrieval and detection tasks at once with no use of labeled data. This is achieved by learning via instance-discrimination with task-tailored augmentations and the widely used InfoNCE loss together with an additional loss operating jointly on self-similarity and hard-negative similarity. We benchmark our method on tasks where video relevance is defined with varying granularity, ranging from video copies to videos depicting the same incident or event. We learn a single universal model that achieves state-of-the-art performance on all tasks, surpassing previously proposed methods that use labeled data. The code and pretrained models are publicly available at: https://github.com/gkordo/s2vs

arxiv情報

著者 Giorgos Kordopatis-Zilos,Giorgos Tolias,Christos Tzelepis,Ioannis Kompatsiaris,Ioannis Patras,Symeon Papadopoulos
発行日 2023-06-16 14:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク