要約
タイトル: 大規模ジオメトリックランニングのための固有次元(Intrinsic Dimension)
要約:
– データの複雑さを把握するために、次元の概念は重要である。
– データセットの次元を決定する素朴な方法は、属性の数に基づくものである。
– より洗練された方法は、より複雑な機能を使用する固有次元(ID)の概念を導出し、データ点間の距離などが挙げられる。
– しかしながら、これらのアプローチの多くは経験的な観察に基づいており、現代的なデータセットの幾何的性質に対処できず、公理的な基盤が欠けている。
– Pestov氏によって提唱された異なるアプローチは、数学的な測定の集中現象に固有次元を公理的にリンクさせるものである。
– IDに関連する概念を計算する最初の方法は、大規模な実世界のデータセットには計算不可能であった。
– 本論文では、公理的なID関数を決定する計算可能な方法を説明し、複雑なデータの幾何学的特性がモデリングされたことを示す。
– 特に、グラフデータのような隣接情報をIDに組み込む方法を提案しており、これにより、オープン・グラフ・ベンチマークの実験による一般的なグラフ学習手順に新しい洞察が与えられる。
要約(オリジナル)
The concept of dimension is essential to grasp the complexity of data. A naive approach to determine the dimension of a dataset is based on the number of attributes. More sophisticated methods derive a notion of intrinsic dimension (ID) that employs more complex feature functions, e.g., distances between data points. Yet, many of these approaches are based on empirical observations, cannot cope with the geometric character of contemporary datasets, and do lack an axiomatic foundation. A different approach was proposed by V. Pestov, who links the intrinsic dimension axiomatically to the mathematical concentration of measure phenomenon. First methods to compute this and related notions for ID were computationally intractable for large-scale real-world datasets. In the present work, we derive a computationally feasible method for determining said axiomatic ID functions. Moreover, we demonstrate how the geometric properties of complex data are accounted for in our modeling. In particular, we propose a principle way to incorporate neighborhood information, as in graph data, into the ID. This allows for new insights into common graph learning procedures, which we illustrate by experiments on the Open Graph Benchmark.
arxiv情報
著者 | Maximilian Stubbemann,Tom Hanika,Friedrich Martin Schneider |
発行日 | 2023-04-17 11:08:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI