Generalization Guarantees for Multi-View Representation Learning and Application to Regularization via Gaussian Product Mixture Prior

要約

分散されたマルチビュー表現学習の問題を研究します。
この問題では、$ k $エージェントは、それぞれが異なる、おそらく統計的に相関している可能性があることを観察し、すべての$ k $表現を取得するデコーダーが非表示ラベルを正しく推定する方法で適切な表現を独立して抽出します。
エージェント間の明示的な調整がない場合、中心的な問題は、デコーダーでの正しい推定に必要かつ十分なビューから、各エージェントが何を抽出すべきかということです。
この論文では、一般化エラーの観点からこの質問を調査します。
まず、トレーニングと「テスト」データセットから抽出された表現の分布とデータ依存の対称事前、つまりすべてのビューとトレーニングとテストデータセットの潜在変数の最小説明長(MDL)との間の相対エントロピーの観点から、いくつかの一般化境界を確立します。
次に、取得した境界を使用して正規者を考案します。
適切な事前の選択の問題を詳細に調査してください。
特に、データ依存性のガウス混合物が賢明に選択された重量を伴うプリエアが良好なパフォーマンスにつながることを示す実験を示し、実施します。
シングルビュー設定(つまり、$ k = 1 $)の場合、実験結果は、既存の以前のART変動情報ボトルネック(VIB)およびカテゴリ依存性VIB(CDVIB)アプローチを上回ることが示されています。
興味深いことに、この設定では、加重注意メカニズムが自然に現れることを示しています。
最後に、マルチビュー設定では、ガウス製品の混合物としてのジョイントの選択が、各周辺ビューに対してガウス混合物の縁を誘導することを示し、エージェントが冗長性の特徴を抽出および出力することを暗黙的に奨励することを示します。

要約(オリジナル)

We study the problem of distributed multi-view representation learning. In this problem, $K$ agents observe each one distinct, possibly statistically correlated, view and independently extracts from it a suitable representation in a manner that a decoder that gets all $K$ representations estimates correctly the hidden label. In the absence of any explicit coordination between the agents, a central question is: what should each agent extract from its view that is necessary and sufficient for a correct estimation at the decoder? In this paper, we investigate this question from a generalization error perspective. First, we establish several generalization bounds in terms of the relative entropy between the distribution of the representations extracted from training and ‘test’ datasets and a data-dependent symmetric prior, i.e., the Minimum Description Length (MDL) of the latent variables for all views and training and test datasets. Then, we use the obtained bounds to devise a regularizer; and investigate in depth the question of the selection of a suitable prior. In particular, we show and conduct experiments that illustrate that our data-dependent Gaussian mixture priors with judiciously chosen weights lead to good performance. For single-view settings (i.e., $K=1$), our experimental results are shown to outperform existing prior art Variational Information Bottleneck (VIB) and Category-Dependent VIB (CDVIB) approaches. Interestingly, we show that a weighted attention mechanism emerges naturally in this setting. Finally, for the multi-view setting, we show that the selection of the joint prior as a Gaussians product mixture induces a Gaussian mixture marginal prior for each marginal view and implicitly encourages the agents to extract and output redundant features, a finding which is somewhat counter-intuitive.

arxiv情報

著者 Milad Sefidgaran,Abdellatif Zaidi,Piotr Krasnowski
発行日 2025-04-25 16:07:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML パーマリンク