要約
複数のモダリティ/ソースにわたるデータのバランシングは、ユニバーサル表現学習を実現するいくつかの基盤モデル (CLIP や DINO など) のさまざまな形で現れます。
通常、表現の崩壊を回避するために使用されるこの反復アルゴリズムには、これらのソースにわたる経験的分布の関数である推定量の分散が減少するという予期せぬ利点があることを示します。
この分散削減効果を定量化する非漸近限界を提供し、それらを適切に定義されたマルコフ演算子の固有減衰に関連付けます。
対照的マルチモーダル学習と自己教師ありクラスタリングにおけるさまざまな形式のデータ バランシングが、この分散削減スキームのインスタンスとしてどのように解釈できるかを説明します。
要約(オリジナル)
Data balancing across multiple modalities/sources appears in various forms in several foundation models (e.g., CLIP and DINO) achieving universal representation learning. We show that this iterative algorithm, usually used to avoid representation collapse, enjoys an unsuspected benefit: reducing the variance of estimators that are functionals of the empirical distribution over these sources. We provide non-asymptotic bounds quantifying this variance reduction effect and relate them to the eigendecays of appropriately defined Markov operators. We explain how various forms of data balancing in contrastive multimodal learning and self-supervised clustering can be interpreted as instances of this variance reduction scheme.
arxiv情報
著者 | Lang Liu,Ronak Mehta,Soumik Pal,Zaid Harchaoui |
発行日 | 2024-08-27 13:48:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google