要約
この論文では、トレーニング中に出現する階層構造を活用するために、さまざまな自己教師あり (SSL) アプローチの上で使用できるアルゴリズムを提案します。
SSL アプローチは通常、類似したサンプル間の一貫性を確保するための不変項と、全体的な次元の崩壊を防ぐための正則化項を通じて機能します。
次元崩壊とは、低次元の部分空間にわたるデータ表現を指します。
最近の研究では、トレーニングが進行するにつれて、これらのアルゴリズムの表現空間が意味論的な階層構造を徐々に反映することが実証されました。
同じ階層グループのデータ サンプルは、互いに共通の特徴を共有するため、データセット全体と比較して局所的に大きな次元崩壊を示す傾向があります。
理想的には、SSL アルゴリズムはこの階層創発を利用して、この局所的な次元崩壊効果を考慮した追加の正則化項を持たせることになります。
ただし、既存の SSL アルゴリズムの構築では、この特性は考慮されていません。
これに対処するために、InfoNCE 損失の分母を 2 つの項 (それぞれローカル階層正則化とグローバル崩壊正則化) に加重分解する適応アルゴリズムを提案します。
この分解は、トレーニング全体を通じて表現空間の新たな階層構造を反映するために徐々に低下する適応しきい値に基づいています。
これは、バッチ内のサンプルのコサイン類似度分布の分析に基づいています。
私たちは、この階層的創発活用 (HEX) アプローチがさまざまな SSL アルゴリズムにわたって統合できることを実証します。
経験的に、100 エポックのトレーニングによる Imagenet での分類精度に関して、ベースライン SSL アプローチと比べて相対的に最大 5.6% のパフォーマンスの向上が見られます。
要約(オリジナル)
In this paper, we propose an algorithm that can be used on top of a wide variety of self-supervised (SSL) approaches to take advantage of hierarchical structures that emerge during training. SSL approaches typically work through some invariance term to ensure consistency between similar samples and a regularization term to prevent global dimensional collapse. Dimensional collapse refers to data representations spanning a lower-dimensional subspace. Recent work has demonstrated that the representation space of these algorithms gradually reflects a semantic hierarchical structure as training progresses. Data samples of the same hierarchical grouping tend to exhibit greater dimensional collapse locally compared to the dataset as a whole due to sharing features in common with each other. Ideally, SSL algorithms would take advantage of this hierarchical emergence to have an additional regularization term to account for this local dimensional collapse effect. However, the construction of existing SSL algorithms does not account for this property. To address this, we propose an adaptive algorithm that performs a weighted decomposition of the denominator of the InfoNCE loss into two terms: local hierarchical and global collapse regularization respectively. This decomposition is based on an adaptive threshold that gradually lowers to reflect the emerging hierarchical structure of the representation space throughout training. It is based on an analysis of the cosine similarity distribution of samples in a batch. We demonstrate that this hierarchical emergence exploitation (HEX) approach can be integrated across a wide variety of SSL algorithms. Empirically, we show performance improvements of up to 5.6% relative improvement over baseline SSL approaches on classification accuracy on Imagenet with 100 epochs of training.
arxiv情報
著者 | Kiran Kokilepersaud,Seulgi Kim,Mohit Prabhushankar,Ghassan AlRegib |
発行日 | 2024-10-30 16:49:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google