要約
ディープ ニューラル ネットワークの自己教師あり学習は、さまざまな下流タスクに転送される学習表現の一般的なパラダイムとなっています。
生物学的視覚の腹側の流れの提案されたモデルと同様に、これらのネットワークが最後から 2 番目の層の表現におけるカテゴリ多様体の分離につながることが観察されます。
この観察は表現学習の多様体仮説と一致しますが、現在の自己教師ありアプローチでは、この多様体を明示的にモデル化する能力が限られています。
実際、現在のアプローチでは、学習中に事前に指定された一連の「ポジティブ ペア」からの拡張のみが適用されることがよくあります。
この研究では、スパース性を促進する事前分布をもつ係数によってパラメータ化されたリー群演算子を使用して、潜在多様体を直接モデル化する対照学習アプローチを提案します。
これらの係数にわたる変分分布は多様体の生成モデルを提供し、コントラスト トレーニングと下流タスクの両方で適用できる機能拡張を提供するサンプルを提供します。
さらに、学習された係数分布により、同一性を維持しながら、多様体上の各点でどの変換が最も可能性が高いかを定量化できます。
画像データセットの自己教師ありベンチマークと、ダウンストリームの半教師ありタスクにおける利点を実証します。
前者の場合、提案された方法が多様体の特徴拡張を効果的に適用し、投影ヘッドの有無にかかわらず学習を改善できることを実証します。
後者の場合、学習したリー群演算子からサンプリングされた特徴拡張により、使用するラベルが少ない場合の分類パフォーマンスが向上することを示します。
要約(オリジナル)
Self-supervised learning of deep neural networks has become a prevalent paradigm for learning representations that transfer to a variety of downstream tasks. Similar to proposed models of the ventral stream of biological vision, it is observed that these networks lead to a separation of category manifolds in the representations of the penultimate layer. Although this observation matches the manifold hypothesis of representation learning, current self-supervised approaches are limited in their ability to explicitly model this manifold. Indeed, current approaches often only apply augmentations from a pre-specified set of ‘positive pairs’ during learning. In this work, we propose a contrastive learning approach that directly models the latent manifold using Lie group operators parameterized by coefficients with a sparsity-promoting prior. A variational distribution over these coefficients provides a generative model of the manifold, with samples which provide feature augmentations applicable both during contrastive training and downstream tasks. Additionally, learned coefficient distributions provide a quantification of which transformations are most likely at each point on the manifold while preserving identity. We demonstrate benefits in self-supervised benchmarks for image datasets, as well as a downstream semi-supervised task. In the former case, we demonstrate that the proposed methods can effectively apply manifold feature augmentations and improve learning both with and without a projection head. In the latter case, we demonstrate that feature augmentations sampled from learned Lie group operators can improve classification performance when using few labels.
arxiv情報
著者 | Kion Fallah,Alec Helbling,Kyle A. Johnsen,Christopher J. Rozell |
発行日 | 2023-06-23 15:07:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google