要約
表現学習の分野が成長するにつれて、さまざまなクラスの問題を解決するために、異なる損失関数が急増しています。
機械学習における最新の損失関数の大規模なコレクションを一般化する単一の情報理論方程式を紹介します。
特に、いくつかの幅広いクラスの機械学習方法が、監督と学習の表現という2つの条件分布間の統合されたKLの発散を正確に最小化していることを示すフレームワークを紹介します。
この視点は、クラスタリング、スペクトルメソッド、次元低下、対照学習、および監視された学習の根底にある隠された情報ジオメトリを公開します。
このフレームワークにより、文献全体から成功した手法を組み合わせることにより、新しい損失関数の開発が可能になります。
23を超えるアプローチを接続する幅広い証明を提示するだけでなく、これらの理論的結果を活用して、Imagenet-1Kの監視されていない分類に関する以前の最新の分類よりも +8%の改善を達成する最先端の非監視されていない画像分類子を作成します。
また、I-conを使用して、対照的な表現学習者を改善する原則的な紛争方法を導き出すことができることを実証します。
要約(オリジナル)
As the field of representation learning grows, there has been a proliferation of different loss functions to solve different classes of problems. We introduce a single information-theoretic equation that generalizes a large collection of modern loss functions in machine learning. In particular, we introduce a framework that shows that several broad classes of machine learning methods are precisely minimizing an integrated KL divergence between two conditional distributions: the supervisory and learned representations. This viewpoint exposes a hidden information geometry underlying clustering, spectral methods, dimensionality reduction, contrastive learning, and supervised learning. This framework enables the development of new loss functions by combining successful techniques from across the literature. We not only present a wide array of proofs, connecting over 23 different approaches, but we also leverage these theoretical results to create state-of-the-art unsupervised image classifiers that achieve a +8% improvement over the prior state-of-the-art on unsupervised classification on ImageNet-1K. We also demonstrate that I-Con can be used to derive principled debiasing methods which improve contrastive representation learners.
arxiv情報
著者 | Shaden Alshammari,John Hershey,Axel Feldmann,William T. Freeman,Mark Hamilton |
発行日 | 2025-04-23 17:59:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google