要約
表現学習のためのほとんどの自己教師あり手法は、ビュー間の一貫性目標を活用しています。つまり、特定の画像の拡張ビューの表現の類似性を最大化します。
最近の研究 NNCLR は、クロスビュー パラダイムを超え、対照的な設定で最近傍ブートストラップによって取得されたさまざまな画像からのポジティブ ペアを使用します。
負のサンプルに依存する対照学習設定とは対照的に、自己蒸留スキームに最近傍ブートストラップを組み込むと、パフォーマンスの低下や崩壊につながる可能性があることを経験的に示しています。
この予期しない動作の理由を詳しく調査し、解決策を提供します。
潜在空間の推定品質に基づいて近傍を適応的にブートストラップすることを提案します。
単純なブートストラップ アプローチや元のベースラインと比較して、一貫した改善が報告されています。
当社のアプローチは、さまざまな自己蒸留方法とバックボーンの組み合わせおよび標準的な下流タスクのパフォーマンスの向上につながります。
私たちのコードは https://github.com/tileb1/AdaSim で公開されています。
要約(オリジナル)
Most self-supervised methods for representation learning leverage a cross-view consistency objective i.e., they maximize the representation similarity of a given image’s augmented views. Recent work NNCLR goes beyond the cross-view paradigm and uses positive pairs from different images obtained via nearest neighbor bootstrapping in a contrastive setting. We empirically show that as opposed to the contrastive learning setting which relies on negative samples, incorporating nearest neighbor bootstrapping in a self-distillation scheme can lead to a performance drop or even collapse. We scrutinize the reason for this unexpected behavior and provide a solution. We propose to adaptively bootstrap neighbors based on the estimated quality of the latent space. We report consistent improvements compared to the naive bootstrapping approach and the original baselines. Our approach leads to performance improvements for various self-distillation method/backbone combinations and standard downstream tasks. Our code is publicly available at https://github.com/tileb1/AdaSim.
arxiv情報
著者 | Tim Lebailly,Thomas Stegmüller,Behzad Bozorgtabar,Jean-Philippe Thiran,Tinne Tuytelaars |
発行日 | 2023-09-07 14:21:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google