Mapping the Multiverse of Latent Representations

要約

機械学習における信頼性と頑健性の懸念に対抗するために、マルチバース分析が最近求められているが、我々は、潜在表現に依存する機械学習モデルのマルチバースをマッピングするための原理的フレームワークであるPRESTOを提示する。このようなモデルは広く採用されているが、その埋め込みにおけるばらつきはまだ十分に理解されておらず、不必要な複雑さと信頼できない表現をもたらす。我々のフレームワークは、多様な機械学習手法、(ハイパー)パラメータ構成、データセットの様々な組み合わせから生じる潜在空間を特徴付けるために永続的な相同性を利用し、それらの対の(非)類似性を測定し、それらの分布を統計的に推論することを可能にする。理論的にも実証的にも示すように、我々のパイプラインは潜在表現のコレクションの望ましい特性を保持し、感度分析の実行、異常な埋め込みの検出、ハイパーパラメータ探索空間の効率的かつ効果的なナビゲートに活用できる。

要約(オリジナル)

Echoing recent calls to counter reliability and robustness concerns in machine learning via multiverse analysis, we present PRESTO, a principled framework for mapping the multiverse of machine-learning models that rely on latent representations. Although such models enjoy widespread adoption, the variability in their embeddings remains poorly understood, resulting in unnecessary complexity and untrustworthy representations. Our framework uses persistent homology to characterize the latent spaces arising from different combinations of diverse machine-learning methods, (hyper)parameter configurations, and datasets, allowing us to measure their pairwise (dis)similarity and statistically reason about their distributions. As we demonstrate both theoretically and empirically, our pipeline preserves desirable properties of collections of latent representations, and it can be leveraged to perform sensitivity analysis, detect anomalous embeddings, or efficiently and effectively navigate hyperparameter search spaces.

arxiv情報

著者 Jeremy Wayland,Corinna Coupette,Bastian Rieck
発行日 2024-02-02 15:54:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.AT, stat.ML パーマリンク