要約
変分次元削減方法は、その精度、生成能力、および堅牢性に広く使用されています。
従来の方法や最先端の両方の方法を一般化する統一フレームワークを紹介します。
フレームワークは、多変量情報ボトルネックの解釈に基づいており、エンコーダーグラフに保存されている情報をデコーダーグラフ(データの生成モデルを定義する)に保存されている情報(圧縮するものを定義)を取引します。
このアプローチを使用して、深い変動情報ボトルネック、変分自動エンコーダー、ディープマルチビュー情報ボトルネックなど、既存の方法を再生します。
自然に深い変動CCA(DVCCA)ファミリーをベータDVCCAに拡張し、新しい方法であるディープバリエーション対称情報ボトルネック(DVSIB)を導入します。
DVSIBの決定論的限界であるDSIBは、とりわけBarlow Twinsなどの最新の対照的な学習アプローチに接続します。
騒々しいミニストと騒々しいCIFAR-100のこれらの方法を評価し、DVSIBやベータDVCCAなどの問題の構造によりよく一致するアルゴリズムは、分類精度、潜在変数の次元性、サンプル効率、および他のアプローチの一貫して他のアプローチを一貫して測定することによって測定されるように、より良い潜在スペースを生成します。
さらに、最先端のモデルに対してベンチマークし、優れたまたは競争の正確性を達成します。
我々の結果は、このフレームワークが多様なマルチビュー表現学習アルゴリズムをシームレスに組み込むことができ、斬新で問題固有の損失関数を設計するための基盤を提供できることを示しています。
要約(オリジナル)
Variational dimensionality reduction methods are widely used for their accuracy, generative capabilities, and robustness. We introduce a unifying framework that generalizes both such as traditional and state-of-the-art methods. The framework is based on an interpretation of the multivariate information bottleneck, trading off the information preserved in an encoder graph (defining what to compress) against that in a decoder graph (defining a generative model for data). Using this approach, we rederive existing methods, including the deep variational information bottleneck, variational autoencoders, and deep multiview information bottleneck. We naturally extend the deep variational CCA (DVCCA) family to beta-DVCCA and introduce a new method, the deep variational symmetric information bottleneck (DVSIB). DSIB, the deterministic limit of DVSIB, connects to modern contrastive learning approaches such as Barlow Twins, among others. We evaluate these methods on Noisy MNIST and Noisy CIFAR-100, showing that algorithms better matched to the structure of the problem like DVSIB and beta-DVCCA produce better latent spaces as measured by classification accuracy, dimensionality of the latent variables, sample efficiency, and consistently outperform other approaches under comparable conditions. Additionally, we benchmark against state-of-the-art models, achieving superior or competitive accuracy. Our results demonstrate that this framework can seamlessly incorporate diverse multi-view representation learning algorithms, providing a foundation for designing novel, problem-specific loss functions.
arxiv情報
著者 | Eslam Abdelaleem,Ilya Nemenman,K. Michael Martini |
発行日 | 2025-04-16 15:58:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google