Consistent spectral clustering in sparse tensor block models


高次クラスタリングは、バイオインフォマティクス、ソーシャル ネットワーク分析、推奨システムなどのさまざまな分野で普及しているマルチウェイ データセット内のオブジェクトを分類することを目的としています。
この論文では、スパース整数値データ テンソル用に特別に設計されたテンソル ブロック モデルを紹介します。
ノイズの変動を軽減し、アルゴリズムの一貫性を保証する密度閾値を特定するためにトリミング ステップを追加した単純なスペクトル クラスタリング アルゴリズムを提案します。
私たちのアプローチは、サブポアソン ノイズ集中フレームワークを使用してスパース性をモデル化し、サブガウス テールよりも重いテールに対応します。
注目すべきことに、この自然なクラスのテンソル ブロック モデルは、任意のモードにわたる集約の下で閉じられます。


High-order clustering aims to classify objects in multiway datasets that are prevalent in various fields such as bioinformatics, social network analysis, and recommendation systems. These tasks often involve data that is sparse and high-dimensional, presenting significant statistical and computational challenges. This paper introduces a tensor block model specifically designed for sparse integer-valued data tensors. We propose a simple spectral clustering algorithm augmented with a trimming step to mitigate noise fluctuations, and identify a density threshold that ensures the algorithm’s consistency. Our approach models sparsity using a sub-Poisson noise concentration framework, accommodating heavier than sub-Gaussian tails. Remarkably, this natural class of tensor block models is closed under aggregation across arbitrary modes. Consequently, we obtain a comprehensive framework for evaluating the tradeoff between signal loss and noise reduction during data aggregation. The analysis is based on a novel concentration bound for sparse random Gram matrices. The theoretical findings are illustrated through simulation experiments.


著者 Ian Välimaa,Lasse Leskelä
発行日 2025-01-23 16:41:19+00:00
