Localizing Memorization in SSL Vision Encoders

要約

自己教師あり学習 (SSL) における記憶に関する研究に関する最近の研究では、SSL エンコーダが数百万の画像でトレーニングされていても、依然として個々のデータ ポイントを記憶していることが示唆されています。
記憶されたデータの特徴を明らかにし、エンコーダの記憶を下流のユーティリティにリンクすることに努力が払われてきましたが、SSL エンコーダ内のどこで記憶が行われるかについてはほとんど知られていません。
このギャップを埋めるために、SSL エンコーダの記憶をレイヤーごと (layermem) とユニットごと (unitmem) でローカライズするための 2 つのメトリクスを提案します。
私たちの位置特定方法は下流のタスクから独立しており、ラベル情報を必要とせず、前方パスで実行できます。
対照的および非対照的な SSL フレームワークを使用して多様なデータセットでトレーニングされたさまざまなエンコーダ アーキテクチャ (畳み込みおよび変換ベース) で記憶を局所化することで、(1) SSL 記憶は層の深さとともに増加する一方で、高度に記憶したユニットがエンコーダ全体に分散していることがわかります。
(2) SSL エンコーダのユニットのかなりの部分で、個々のデータ ポイントの驚くほど高い記憶が行われます。これは、監視下でトレーニングされたモデルとは対照的です。(3)
非典型的な (または外れ値の) データ ポイントは、標準のデータ ポイントよりもはるかに高い層と単位の記憶を引き起こします。(4) ビジョン トランスフォーマーでは、ほとんどの記憶は完全に接続された層で行われます。
最後に、SSL での記憶をローカライズすることで、微調整を改善し、枝刈り戦略に情報を提供できる可能性があることを示します。

要約(オリジナル)

Recent work on studying memorization in self-supervised learning (SSL) suggests that even though SSL encoders are trained on millions of images, they still memorize individual data points. While effort has been put into characterizing the memorized data and linking encoder memorization to downstream utility, little is known about where the memorization happens inside SSL encoders. To close this gap, we propose two metrics for localizing memorization in SSL encoders on a per-layer (layermem) and per-unit basis (unitmem). Our localization methods are independent of the downstream task, do not require any label information, and can be performed in a forward pass. By localizing memorization in various encoder architectures (convolutional and transformer-based) trained on diverse datasets with contrastive and non-contrastive SSL frameworks, we find that (1) while SSL memorization increases with layer depth, highly memorizing units are distributed across the entire encoder, (2) a significant fraction of units in SSL encoders experiences surprisingly high memorization of individual data points, which is in contrast to models trained under supervision, (3) atypical (or outlier) data points cause much higher layer and unit memorization than standard data points, and (4) in vision transformers, most memorization happens in the fully-connected layers. Finally, we show that localizing memorization in SSL has the potential to improve fine-tuning and to inform pruning strategies.

arxiv情報

著者 Wenhao Wang,Adam Dziedzic,Michael Backes,Franziska Boenisch
発行日 2024-12-12 18:48:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク