What is the $\textit{intrinsic}$ dimension of your binary data? — and how to compute it quickly

要約

次元性は、(高次元) データを分析および理解するための重要な側面です。
2006 年の ICDM 論文で、Tatti et al.
正規化された相関次元を導入することで、バイナリ データ テーブルの (解釈可能な) 次元に関する質問に答えました。
今回の研究では、それらの結果を再検討し、最近幾何学的データセットに導入された固有次元 (ID) の概念ベースの概念とそれらを対比させます。
これを行うために、特定のサポート値までのコンピューティング概念に基づいたこの ID の新しい近似値を提示します。
Tatti らの利用可能なデータセット (外部次元 469 ~ 41,271) をすべて使用して、近似を実証および評価します。

要約(オリジナル)

Dimensionality is an important aspect for analyzing and understanding (high-dimensional) data. In their 2006 ICDM paper Tatti et al. answered the question for a (interpretable) dimension of binary data tables by introducing a normalized correlation dimension. In the present work we revisit their results and contrast them with a concept based notion of intrinsic dimension (ID) recently introduced for geometric data sets. To do this, we present a novel approximation for this ID that is based on computing concepts only up to a certain support value. We demonstrate and evaluate our approximation using all available datasets from Tatti et al., which have between 469 and 41271 extrinsic dimensions.

arxiv情報

著者 Tom Hanika,Tobias Hille
発行日 2024-04-09 14:04:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 06-08, cs.AI, cs.LG パーマリンク