Towards an Improved Understanding and Utilization of Maximum Manifold Capacity Representations

要約

Maximum Manifold Capacity Representations (MMCR) は、他の主要な MVSSL メソッドと同等またはそれを上回る、最新のマルチビュー自己教師あり学習 (MVSSL) メソッドです。
MMCR が興味深いのは、一般的な MVSSL 系統のいずれにもきちんと当てはまらず、データ多様体の線形分離性に関する統計機械的な観点に由来しているためです。
このホワイトペーパーでは、MMCR の理解と活用の向上を目指します。
MMCR をより深く理解するために、高次元確率からのツールを活用して、MMCR が学習された埋め込みの調整と均一性を促進することを実証します。
次に、情報理論のツールを活用して、そのような埋め込みがビュー間の相互情報量のよく知られている下限を最大化することを示し、それによって MMCR の幾何学的な観点を MVSSL で一般的に議論される情報理論的な観点に結び付けます。
MMCR をより効果的に活用するために、二重降下に似た非単調な事前トレーニング損失の変化を数学的に予測し、実験的に確認しますが、これは非典型的なハイパーパラメータに関するものです。
また、勾配ステップ、バッチ サイズ、埋め込み次元、ビュー数の関数として事前トレーニング損失を予測できる計算スケーリング則も発見しました。
次に、もともと画像データに適用された MMCR が、マルチモーダルな画像テキスト データに対しても機能することを示します。
MMCR の理論的および経験的な動作をより深く理解することで、私たちの研究は MVSSL メソッドの改善に関する洞察を明らかにします。

要約(オリジナル)

Maximum Manifold Capacity Representations (MMCR) is a recent multi-view self-supervised learning (MVSSL) method that matches or surpasses other leading MVSSL methods. MMCR is intriguing because it does not fit neatly into any of the commonplace MVSSL lineages, instead originating from a statistical mechanical perspective on the linear separability of data manifolds. In this paper, we seek to improve our understanding and our utilization of MMCR. To better understand MMCR, we leverage tools from high dimensional probability to demonstrate that MMCR incentivizes alignment and uniformity of learned embeddings. We then leverage tools from information theory to show that such embeddings maximize a well-known lower bound on mutual information between views, thereby connecting the geometric perspective of MMCR to the information-theoretic perspective commonly discussed in MVSSL. To better utilize MMCR, we mathematically predict and experimentally confirm non-monotonic changes in the pretraining loss akin to double descent but with respect to atypical hyperparameters. We also discover compute scaling laws that enable predicting the pretraining loss as a function of gradients steps, batch size, embedding dimension and number of views. We then show that MMCR, originally applied to image data, is performant on multimodal image-text data. By more deeply understanding the theoretical and empirical behavior of MMCR, our work reveals insights on improving MVSSL methods.

arxiv情報

著者 Rylan Schaeffer,Victor Lecomte,Dhruv Bhandarkar Pai,Andres Carranza,Berivan Isik,Alyssa Unell,Mikail Khona,Thomas Yerxa,Yann LeCun,SueYeon Chung,Andrey Gromov,Ravid Shwartz-Ziv,Sanmi Koyejo
発行日 2024-06-13 17:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, q-bio.NC パーマリンク