TiCo: Transformation Invariance and Covariance Contrast for Self-Supervised Visual Representation Learning

要約

自己監視視覚表現学習のための変換不変性と共分散コントラスト(TiCo)を提示します。
他の最近の自己監視学習方法と同様に、私たちの方法は、同じ画像の異なる歪んだバージョンの埋め込み間の一致を最大化することに基づいています。これにより、エンコーダーが変換不変表現を生成します。
エンコーダーが定数ベクトルを生成する自明なソリューションを回避するために、低ランクのソリューションにペナルティを課すことにより、さまざまな画像からの埋め込みの共分散行列を正規化します。
変換不変損失と共分散コントラスト損失を共同で最小化することにより、ダウンストリームタスクに役立つ表現を生成できるエンコーダーを取得します。
私たちの方法を分析し、追加のメモリコストなしで無制限のサイズの暗黙のメモリバンクを備えたMoCoのバリアントと見なすことができることを示します。
これにより、小さなバッチサイズを使用する場合に、このメソッドのパフォーマンスが他のメソッドよりも向上します。
TiCoは、BarlowTwinsの修正版と見なすこともできます。
TiCoは、対照的な方法と冗長性を減らす方法を結び付けることにより、共同埋め込み方法がどのように機能するかについての新しい洞察を提供します。

要約(オリジナル)

We present Transformation Invariance and Covariance Contrast (TiCo) for self-supervised visual representation learning. Similar to other recent self-supervised learning methods, our method is based on maximizing the agreement among embeddings of different distorted versions of the same image, which pushes the encoder to produce transformation invariant representations. To avoid the trivial solution where the encoder generates constant vectors, we regularize the covariance matrix of the embeddings from different images by penalizing low rank solutions. By jointly minimizing the transformation invariance loss and covariance contrast loss, we get an encoder that is able to produce useful representations for downstream tasks. We analyze our method and show that it can be viewed as a variant of MoCo with an implicit memory bank of unlimited size at no extra memory cost. This makes our method perform better than alternative methods when using small batch sizes. TiCo can also be seen as a modification of Barlow Twins. By connecting the contrastive and redundancy-reduction methods together, TiCo gives us new insights into how joint embedding methods work.

arxiv情報

著者 Jiachen Zhu,Rafael M. Moraes,Serkan Karakulak,Vlad Sobol,Alfredo Canziani,Yann LeCun
発行日 2022-06-23 17:36:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク