要約
ネットワーク データは最新の機械学習において遍在しており、ノード分類、ノード クラスタリング、リンク予測などの興味深いタスクが含まれています。
一般的なアプローチは、ネットワークのユークリッド埋め込みを学習することから始まり、ベクトル値データ用に開発されたアルゴリズムが適用されます。
大規模なネットワークの場合、サブサンプリング スキームを自由に選択できる確率的勾配法を使用して埋め込みが学習されます。
このような方法は経験的に優れた性能を示しているにもかかわらず、理論的には十分に理解されていません。
私たちの研究では、node2vec などのサブサンプリング アプローチを使用した表現メソッドを、単一の統一フレームワークにカプセル化しています。
グラフが交換可能であるという仮定の下で、学習された埋め込みベクトルの分布が漸近的に分離することを証明します。
さらに、損失関数と埋め込み次元の選択を含む潜在パラメータの観点から、漸近分布と提供された収束率を特徴付けます。
これは、埋め込みベクトルが何を表すか、およびこれらのメソッドが下流のタスクでどの程度適切に実行されるかを理解するための理論的基盤を提供します。
特に、通常使用される損失関数は、フィッシャーの一貫性の欠如などの欠点を引き起こす可能性があることが観察されています。
要約(オリジナル)
Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.
arxiv情報
著者 | Andrew Davison,Morgane Austern |
発行日 | 2023-05-17 15:18:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google