The Benefits of Balance: From Information Projections to Variance Reduction

要約

複数のモダリティとソースにわたるデータバランスは、機械学習とAIの基礎モデルにさまざまな形で表示されます。
クリップとディノ。
モダリティとソース全体でデータバランスをとるデータは、実際に疑わしい利点である分散削減を提供することを示しています。
この分散還元効果を定量化し、それをマルコフ演算子の固有値減衰に関連付ける非症状の統計的結合を提示します。
さらに、分散削減の視点により、対照的なマルチモーダル学習と自己監視クラスタリングでさまざまな形態のデータバランスをとることがよりよく理解され、さらには改善さえできることを説明します。

要約(オリジナル)

Data balancing across multiple modalities and sources appears in various forms in foundation models in machine learning and AI, e.g. in CLIP and DINO. We show that data balancing across modalities and sources actually offers an unsuspected benefit: variance reduction. We present a non-asymptotic statistical bound that quantifies this variance reduction effect and relates it to the eigenvalue decay of Markov operators. Furthermore, we describe how various forms of data balancing in contrastive multimodal learning and self-supervised clustering can be better understood, and even improved upon, owing to our variance reduction viewpoint.

arxiv情報

著者 Lang Liu,Ronak Mehta,Soumik Pal,Zaid Harchaoui
発行日 2025-02-11 17:47:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク