要約
次元性は、(高次元) データを分析および理解するための重要な側面です。
2006 年の ICDM 論文で、Tatti et al.
正規化された相関次元を導入することで、バイナリ データ テーブルの (解釈可能な) 次元に関する質問に答えました。
今回の研究では、それらの結果を再検討し、最近幾何学的データセットに導入された固有次元 (ID) の概念ベースの概念とそれらを対比させます。
これを行うために、特定のサポート値までのコンピューティング概念に基づいたこの ID の新しい近似値を提示します。
Tatti らの利用可能なデータセット (外部次元 469 ~ 41,271) をすべて使用して、近似を実証および評価します。
要約(オリジナル)
Dimensionality is an important aspect for analyzing and understanding (high-dimensional) data. In their 2006 ICDM paper Tatti et al. answered the question for a (interpretable) dimension of binary data tables by introducing a normalized correlation dimension. In the present work we revisit their results and contrast them with a concept based notion of intrinsic dimension (ID) recently introduced for geometric data sets. To do this, we present a novel approximation for this ID that is based on computing concepts only up to a certain support value. We demonstrate and evaluate our approximation using all available datasets from Tatti et al., which have between 469 and 41271 extrinsic dimensions.
arxiv情報
著者 | Tom Hanika,Tobias Hille |
発行日 | 2024-04-09 14:04:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google