The Role of Entropy and Reconstruction in Multi-View Self-Supervised Learning

要約

マルチビュー自己教師あり学習 (MVSSL) の成功の背後にあるメカニズムはまだ完全には理解されていません。
対照的な MVSSL 手法は、相互情報 (MI) の下限である InfoNCE のレンズを通して研究されてきました。
ただし、他の MVSSL 方式と MI との関係は不明のままです。
エントロピーと再構成項 (ER) から構成される MI の別の下限を考慮し、そのレンズを通して主要な MVSSL ファミリを分析します。
この ER 境界を通じて、DeepCluster や SwAV などのクラスタリング ベースの手法が MI を最大化することを示します。
また、BYOL や DINO などの蒸留ベースのアプローチのメカニズムを再解釈し、再構成項を明示的に最大化し、暗黙的に安定したエントロピーを促進することを示し、これを経験的に確認します。
一般的な MVSSL メソッドの目標をこの ER 境界に置き換えることで、より小さいバッチ サイズまたはより小さい指数移動平均 (EMA) 係数でトレーニングする場合に安定したパフォーマンスを実現しながら、競争力のあるパフォーマンスを実現できることを示します。
Github リポジトリ: https://github.com/apple/ml-entropy-reconstruction。

要約(オリジナル)

The mechanisms behind the success of multi-view self-supervised learning (MVSSL) are not yet fully understood. Contrastive MVSSL methods have been studied through the lens of InfoNCE, a lower bound of the Mutual Information (MI). However, the relation between other MVSSL methods and MI remains unclear. We consider a different lower bound on the MI consisting of an entropy and a reconstruction term (ER), and analyze the main MVSSL families through its lens. Through this ER bound, we show that clustering-based methods such as DeepCluster and SwAV maximize the MI. We also re-interpret the mechanisms of distillation-based approaches such as BYOL and DINO, showing that they explicitly maximize the reconstruction term and implicitly encourage a stable entropy, and we confirm this empirically. We show that replacing the objectives of common MVSSL methods with this ER bound achieves competitive performance, while making them stable when training with smaller batch sizes or smaller exponential moving average (EMA) coefficients. Github repo: https://github.com/apple/ml-entropy-reconstruction.

arxiv情報

著者 Borja Rodríguez-Gálvez,Arno Blaas,Pau Rodríguez,Adam Goliński,Xavier Suau,Jason Ramapuram,Dan Busbridge,Luca Zappella
発行日 2023-07-20 14:29:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク