Consistent spectral clustering in sparse tensor block models

要約

高次クラスタリングは、バイオインフォマティクス、ソーシャル ネットワーク分析、推奨システムなどのさまざまな分野で普及しているマルチウェイ データセット内のオブジェクトを分類することを目的としています。
これらのタスクには、疎で高次元のデータが含まれることが多く、統計的および計算上、重大な課題が生じます。
この論文では、スパース整数値データ テンソル用に特別に設計されたテンソル ブロック モデルを紹介します。
ノイズの変動を軽減し、アルゴリズムの一貫性を保証する密度閾値を特定するためにトリミング ステップを追加した単純なスペクトル クラスタリング アルゴリズムを提案します。
私たちのアプローチは、サブポアソン ノイズ集中フレームワークを使用してスパース性をモデル化し、サブガウス テールよりも重いテールに対応します。
注目すべきことに、この自然なクラスのテンソル ブロック モデルは、任意のモードにわたる集約の下で閉じられます。
その結果、データ集約中の信号損失とノイズ低減の間のトレードオフを評価するための包括的なフレームワークが得られます。
この分析は、疎なランダムなグラム行列に結合した新しい濃度に基づいています。
理論的発見はシミュレーション実験を通じて説明されます。

要約(オリジナル)

High-order clustering aims to classify objects in multiway datasets that are prevalent in various fields such as bioinformatics, social network analysis, and recommendation systems. These tasks often involve data that is sparse and high-dimensional, presenting significant statistical and computational challenges. This paper introduces a tensor block model specifically designed for sparse integer-valued data tensors. We propose a simple spectral clustering algorithm augmented with a trimming step to mitigate noise fluctuations, and identify a density threshold that ensures the algorithm’s consistency. Our approach models sparsity using a sub-Poisson noise concentration framework, accommodating heavier than sub-Gaussian tails. Remarkably, this natural class of tensor block models is closed under aggregation across arbitrary modes. Consequently, we obtain a comprehensive framework for evaluating the tradeoff between signal loss and noise reduction during data aggregation. The analysis is based on a novel concentration bound for sparse random Gram matrices. The theoretical findings are illustrated through simulation experiments.

arxiv情報

著者 Ian Välimaa,Lasse Leskelä
発行日 2025-01-23 16:41:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62H30, cs.LG, math.PR, math.ST, stat.TH パーマリンク