How high is `high’? Rethinking the roles of dimensionality in topological data analysis and manifold learning

要約

一般化されたハンソンライト不平等を提示し、それを使用して、データポイントクラウドのジオメトリに関する新しい統計的洞察を確立します。
データの一般的なランダム関数モデルの設定では、次元の3つの概念が再生される役割を明確にします。周囲の固有の次元$ p _ {\ mathrm {int}} $。
サンプル全体の機能的な複雑さを測定する相関ランク。
データに隠された多様体構造の次元である潜在的な内因性次元。
我々の分析は、持続図が潜在的な相同性を明らかにし、マニホールド構造が出現するために$ p _ {\ mathrm {int}} \ gg \ log n $、$ n $がサンプルサイズであることが十分であることを示しています。
これらの理論的視点から通知されて、Gardner et al。
(Nature、2022):私たちの調査結果は、この構造が実際に物理空間に等程度であることを初めて明らかにします。つまり、グリッド細胞の活動は現実世界の幾何学的に忠実な表現を伝えます。

要約(オリジナル)

We present a generalised Hanson-Wright inequality and use it to establish new statistical insights into the geometry of data point-clouds. In the setting of a general random function model of data, we clarify the roles played by three notions of dimensionality: ambient intrinsic dimension $p_{\mathrm{int}}$, which measures total variability across orthogonal feature directions; correlation rank, which measures functional complexity across samples; and latent intrinsic dimension, which is the dimension of manifold structure hidden in data. Our analysis shows that in order for persistence diagrams to reveal latent homology and for manifold structure to emerge it is sufficient that $p_{\mathrm{int}}\gg \log n$, where $n$ is the sample size. Informed by these theoretical perspectives, we revisit the ground-breaking neuroscience discovery of toroidal structure in grid-cell activity made by Gardner et al. (Nature, 2022): our findings reveal, for the first time, evidence that this structure is in fact isometric to physical space, meaning that grid cell activity conveys a geometrically faithful representation of the real world.

arxiv情報

著者 Hannah Sansford,Nick Whiteley,Patrick Rubin-Delanchy
発行日 2025-05-22 16:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク