Gaussian Database Alignment and Gaussian Planted Matching

要約

データベース アライメントは、グラフ アライメント問題の変形です。ユーザーのセットについて、個別ではあるものの相関関係にある特徴が含まれる匿名化されたデータベースのペアが与えられた場合、問題は、特徴間の対応関係を特定し、相関関係のみに基づいて匿名化されたユーザー セットをアライメントすることです。
これは、ランダムな重みを持つバイグラフが与えられた場合、その目標は、指定された重みを生成した基礎となるマッチングを特定することである、植え付けられたマッチングと密接に関連しています。
多変量ガウス特徴量を使用したデータベース アライメント問題の例を研究し、データベース アライメントと植え付けられたマッチングの両方に適用される結果を導き出し、それらの間の関連性を示します。
データベースのアライメントのパフォーマンスしきい値は、データベースの特徴の次元が \(\omega(\log n)\) の場合に、植え付けられたマッチングのパフォーマンスのしきい値に収束します。ここで、 \(n\) はアライメントのサイズであり、個々の特徴が存在しません。
強すぎる。
植え付けられたマッチングとデータベースのアライメントの両方の最尤アルゴリズムは線形プログラムの形式をとっており、さまざまな条件下でのさまざまな制約の重要性をよりよく理解するために緩和を研究し、達成可能性と逆の限界を示します。
我々の結果は、緩和アルゴリズムのほぼ正確なアライメント閾値が最尤の閾値と一致する一方で、正確なアライメント閾値の間にはギャップがあることを示しています。
私たちの分析と結果は、1 つのユーザー セットが調整によって完全にカバーされていない不均衡なケースにまで及びました。

要約(オリジナル)

Database alignment is a variant of the graph alignment problem: Given a pair of anonymized databases containing separate yet correlated features for a set of users, the problem is to identify the correspondence between the features and align the anonymized user sets based on correlation alone. This closely relates to planted matching, where given a bigraph with random weights, the goal is to identify the underlying matching that generated the given weights. We study an instance of the database alignment problem with multivariate Gaussian features and derive results that apply both for database alignment and for planted matching, demonstrating the connection between them. The performance thresholds for database alignment converge to that for planted matching when the dimensionality of the database features is \(\omega(\log n)\), where \(n\) is the size of the alignment, and no individual feature is too strong. The maximum likelihood algorithms for both planted matching and database alignment take the form of a linear program and we study relaxations to better understand the significance of various constraints under various conditions and present achievability and converse bounds. Our results show that the almost-exact alignment threshold for the relaxed algorithms coincide with that of maximum likelihood, while there is a gap between the exact alignment thresholds. Our analysis and results extend to the unbalanced case where one user set is not fully covered by the alignment.

arxiv情報

著者 Osman Emre Dai,Daniel Cullina,Negar Kiyavash
発行日 2023-07-05 17:32:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.DS, cs.IT, cs.LG, math.IT, stat.ML パーマリンク