Beyond Supervised vs. Unsupervised: Representative Benchmarking and Analysis of Image Representation Learning

要約

対照的な学習、クラスタリング、およびその他の口実タスクを活用することにより、画像表現を学習するための教師なし方法は、標準的なベンチマークで印象的な結果に達しました。
結果は混雑した分野でした-実装が大幅に異なる多くのメソッドは、ImageNetでの線形評価など、一般的なベンチマークでほぼ同じように見える結果をもたらします。
ただし、1つの結果で全体像がわかるわけではありません。
このホワイトペーパーでは、線形評価、最近傍分類、いくつかの異なるデータセットのクラスタリングなどのパフォーマンスベースのベンチマークを使用して方法を比較し、現在の最先端技術には明確なフロントランナーがないことを示しています。
教師あり比較と教師なし比較のみを実行する以前の作業とは対照的に、いくつかの異なる教師なし方法を相互に比較します。
この比較を充実させるために、均一性、許容誤差、中心カーネルアライメント(CKA)などの測定値を使用して埋め込みを分析し、最近傍グラフの類似性と線形予測の重複という2つの新しいメトリックを提案します。
分析を通じて、単一の一般的な方法を、フィールド全体を表すものとして扱うべきではなく、今後の作業では、これらの方法の補完的な性質をどのように活用するかを検討する必要があることを明らかにします。
また、CKAを活用して、拡張の不変性を確実に定量化するためのフレームワークを提供し、特定のタイプの不変性がダウンストリームタスクにとって望ましくないことを思い出させます。

要約(オリジナル)

By leveraging contrastive learning, clustering, and other pretext tasks, unsupervised methods for learning image representations have reached impressive results on standard benchmarks. The result has been a crowded field – many methods with substantially different implementations yield results that seem nearly identical on popular benchmarks, such as linear evaluation on ImageNet. However, a single result does not tell the whole story. In this paper, we compare methods using performance-based benchmarks such as linear evaluation, nearest neighbor classification, and clustering for several different datasets, demonstrating the lack of a clear front-runner within the current state-of-the-art. In contrast to prior work that performs only supervised vs. unsupervised comparison, we compare several different unsupervised methods against each other. To enrich this comparison, we analyze embeddings with measurements such as uniformity, tolerance, and centered kernel alignment (CKA), and propose two new metrics of our own: nearest neighbor graph similarity and linear prediction overlap. We reveal through our analysis that in isolation, single popular methods should not be treated as though they represent the field as a whole, and that future work ought to consider how to leverage the complimentary nature of these methods. We also leverage CKA to provide a framework to robustly quantify augmentation invariance, and provide a reminder that certain types of invariance will be undesirable for downstream tasks.

arxiv情報

著者 Matthew Gwilliam,Abhinav Shrivastava
発行日 2022-06-16 17:51:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク