Node Similarities under Random Projections: Limits and Pathological Cases

要約

ランダム投影は、その計算効率により、さまざまなグラフ学習タスクの埋め込みを生成するために広く使用されてきました。
アプリケーションの大部分は、ジョンソン・リンデンシュトラウスの補助定理によって正当化されています。
この論文では、さらに一歩進んで、ランダム投影をグラフ行列の行に適用した場合に、ドット積とコサインの類似性がどの程度維持されるかを調査します。
私たちの分析は、新しい漸近的かつ有限サンプルの結果を提供し、病理学的ケースを特定し、数値実験でそれらをテストします。
埋め込みによって引き起こされるノードの順序を反転するランダムな投影の確率を計算することにより、基本的な結果をランキング アプリケーションに特化します。
次数の分布に応じて、この方法では、隣接行列が使用されるか正規化された遷移行列が使用されるかに関係なく、内積に対して特に信頼性の低い埋め込みが生成されることがわかります。
ランダムな射影によってもたらされる統計的ノイズに関して、コサイン類似度によって著しく正確な近似が生成されることを示します。

要約(オリジナル)

Random Projections have been widely used to generate embeddings for various graph learning tasks due to their computational efficiency. The majority of applications have been justified through the Johnson-Lindenstrauss Lemma. In this paper, we take a step further and investigate how well dot product and cosine similarity are preserved by random projections when these are applied over the rows of the graph matrix. Our analysis provides new asymptotic and finite-sample results, identifies pathological cases, and tests them with numerical experiments. We specialize our fundamental results to a ranking application by computing the probability of random projections flipping the node ordering induced by their embeddings. We find that, depending on the degree distribution, the method produces especially unreliable embeddings for the dot product, regardless of whether the adjacency or the normalized transition matrix is used. With respect to the statistical noise introduced by random projections, we show that cosine similarity produces remarkably more precise approximations.

arxiv情報

著者 Tvrtko Tadić,Cassiano Becker,Jennifer Neville
発行日 2024-07-29 16:51:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, cs.SI, math.PR, stat.ML パーマリンク