要約
ミスリンク予測は、知識グラフの推奨システム、生物学、社会科学、サイバーセキュリティ、情報検索、および人工知能(AI)の推論のアプリケーションを使用して、ネットワーク分析の方法です。
欠落リンク予測は、観察されたパターンと関係を分析することにより、ネットワーク内の目に見えないが潜在的に既存の接続を識別します。
増殖検出では、これは、核兵器または関連する技術を獲得するための州および非国家の関係者による試みを特定し、特徴付ける努力をサポートしています。
非陰性マトリックス因数分解(NMF)やロジスティックマトリックス因数分解(LMF)などの次元削減技術は効果的ですが、マトリックスランクパラメーター、つまり、過剰/過小フィットを避けるために、隠された特徴の数の選択が必要です。
リンク予測のために、ロジスティック因数分解を組み込んだアンサンブル変数とともに、新規加重(WNMFK)、ブール(BNMFK)、および推奨(RNMFK)マトリックス因数分解法を紹介します。
当社の方法は、修正されたブートストラップ方法論と不確実性の定量化(UQ)を使用して安定性と精度を評価し、ランダムな摂動下での予測信頼性を評価することにより、ランク推定の自動モデル決定を統合します。
ブールマトリックス因数分解のために、ostuしきい値選択とk-meansクラスタリングを組み込み、それらを降下ベースのブールのしきい値を調整するために比較します。
私たちの実験は、ランクKの選択の影響を強調し、さまざまなテストセットサイズでモデルのパフォーマンスを評価し、棄権を使用した信頼できる予測に対するUQの利点を実証します。
3つの合成データセット(ブールと均一に分布)でメソッドを検証し、5つの実際のタンパク質間相互作用ネットワークのLMFおよび対称LMF(SymlMF)に対してベンチマークし、予測パフォーマンスの改善を示します。
要約(オリジナル)
Missing link prediction is a method for network analysis, with applications in recommender systems, biology, social sciences, cybersecurity, information retrieval, and Artificial Intelligence (AI) reasoning in Knowledge Graphs. Missing link prediction identifies unseen but potentially existing connections in a network by analyzing the observed patterns and relationships. In proliferation detection, this supports efforts to identify and characterize attempts by state and non-state actors to acquire nuclear weapons or associated technology – a notoriously challenging but vital mission for global security. Dimensionality reduction techniques like Non-Negative Matrix Factorization (NMF) and Logistic Matrix Factorization (LMF) are effective but require selection of the matrix rank parameter, that is, of the number of hidden features, k, to avoid over/under-fitting. We introduce novel Weighted (WNMFk), Boolean (BNMFk), and Recommender (RNMFk) matrix factorization methods, along with ensemble variants incorporating logistic factorization, for link prediction. Our methods integrate automatic model determination for rank estimation by evaluating stability and accuracy using a modified bootstrap methodology and uncertainty quantification (UQ), assessing prediction reliability under random perturbations. We incorporate Otsu threshold selection and k-means clustering for Boolean matrix factorization, comparing them to coordinate descent-based Boolean thresholding. Our experiments highlight the impact of rank k selection, evaluate model performance under varying test-set sizes, and demonstrate the benefits of UQ for reliable predictions using abstention. We validate our methods on three synthetic datasets (Boolean and uniformly distributed) and benchmark them against LMF and symmetric LMF (symLMF) on five real-world protein-protein interaction networks, showcasing an improved prediction performance.
arxiv情報
著者 | Ryan Barron,Maksim E. Eren,Duc P. Truong,Cynthia Matuszek,James Wendelberger,Mary F. Dorn,Boian Alexandrov |
発行日 | 2025-03-06 18:22:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google