Active Self-Supervised Learning: A Few Low-Cost Relationships Are All You Need


自己教師あり学習 (SSL) は、ラベルのないデータから転送可能な表現を学習するための最適なソリューションとして登場しました。
ただし、SSL では、意味的に類似していることが知られているサンプル、つまり肯定的なビューを作成する必要があります。
このような知識を必要とすることが SSL の主な制限であり、アドホックな戦略によって対処されることがよくあります。
この作業では、オラクルがサンプル間のセマンティックな関係を照会するポジティブ アクティブ ラーニング (PAL) を通じて、この原則を一般化し、形式化します。
PAL は 3 つの主な目的を達成します。
まず、採用されているオラクルに応じて、教師ありおよび半教師ありの学習に取り組むために拡張できる、SSL を超えた理論に基づいた学習フレームワークを明らかにします。
一部の観察されたラベルは、トレーニング パイプラインに変更を加えることなく SSL 損失に移行しました。
第三に、それは適切なアクティブ ラーニング フレームワークを提供し、データセットに注釈を付けるための低コストのソリューションを生み出します。おそらく、入力間の意味的関係の非専門家による簡単な回答に基づくアクティブ ラーニングの理論と実践の間にギャップをもたらします。


Self-Supervised Learning (SSL) has emerged as the solution of choice to learn transferable representations from unlabeled data. However, SSL requires to build samples that are known to be semantically akin, i.e. positive views. Requiring such knowledge is the main limitation of SSL and is often tackled by ad-hoc strategies e.g. applying known data-augmentations to the same input. In this work, we generalize and formalize this principle through Positive Active Learning (PAL) where an oracle queries semantic relationships between samples. PAL achieves three main objectives. First, it unveils a theoretically grounded learning framework beyond SSL, that can be extended to tackle supervised and semi-supervised learning depending on the employed oracle. Second, it provides a consistent algorithm to embed a priori knowledge, e.g. some observed labels, into any SSL losses without any change in the training pipeline. Third, it provides a proper active learning framework yielding low-cost solutions to annotate datasets, arguably bringing the gap between theory and practice of active learning that is based on simple-to-answer-by-non-experts queries of semantic relationships between inputs.


著者 Vivien Cabannes,Leon Bottou,Yann Lecun,Randall Balestriero
発行日 2023-03-27 14:44:39+00:00
