Comparing the information content of probabilistic representation spaces

要約

確率的表現空間はデータセットに関する情報を伝達し、トレーニング損失やネットワーク アーキテクチャなどの要因の影響を理解するために、そのような空間の情報内容を比較しようとします。
ただし、表現空間を比較する既存の方法のほとんどは、表現が点であると仮定し、確率的表現の分布的性質を無視しています。
ここでは、ポイントベースの比較尺度に基づいて構築するのではなく、ハード クラスタリングに関する文献からの古典的な手法に基づいて構築します。
ハード クラスタリング割り当てを比較する 2 つの情報理論的手法を一般化して、一般的な確率的表現空間に適用します。
次に、データセットのサンプルを使用して表現空間をフィンガープリンティングすることに基づいた実用的な推定方法を提案します。この方法は、伝達される情報がほんの数ビットである場合に適用できます。
教師なし解きほぐしを動機となる問題として、VAE と InfoGAN アンサンブルの個々の潜在次元に繰り返し含まれる情報の断片を見つけます。
次に、モデルの完全な潜在空間を比較することで、繰り返し実行中にはトレーニング中に大幅に変化するポイントが存在する場合が多いにもかかわらず、データセット、メソッド、ハイパーパラメーター全体で一貫性の高い情報コンテンツが見つかります。
最後に、提案された方法の微分可能性を活用し、それぞれがデータセットのグローバル構造を表すことができない複数の弱学習器の情報内容を合成することによってモデル融合を実行します。
ケーススタディ全体で、情報内容を直接比較することで、情報の処理を理解するための自然な基礎が得られます。

要約(オリジナル)

Probabilistic representation spaces convey information about a dataset, and to understand the effects of factors such as training loss and network architecture, we seek to compare the information content of such spaces. However, most existing methods to compare representation spaces assume representations are points, and neglect the distributional nature of probabilistic representations. Here, instead of building upon point-based measures of comparison, we build upon classic methods from literature on hard clustering. We generalize two information-theoretic methods of comparing hard clustering assignments to be applicable to general probabilistic representation spaces. We then propose a practical method of estimation that is based on fingerprinting a representation space with a sample of the dataset and is applicable when the communicated information is only a handful of bits. With unsupervised disentanglement as a motivating problem, we find information fragments that are repeatedly contained in individual latent dimensions in VAE and InfoGAN ensembles. Then, by comparing the full latent spaces of models, we find highly consistent information content across datasets, methods, and hyperparameters, even though there is often a point during training with substantial variety across repeat runs. Finally, we leverage the differentiability of the proposed method and perform model fusion by synthesizing the information content of multiple weak learners, each incapable of representing the global structure of a dataset. Across the case studies, the direct comparison of information content provides a natural basis for understanding the processing of information.

arxiv情報

著者 Kieran A. Murphy,Sam Dillavou,Dani S. Bassett
発行日 2024-10-21 17:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク