Explainable Graph Spectral Clustering of Text Documents

要約

スペクトル クラスタリング手法は、さまざまな形状、密度などのクラスターを表現できることで知られています。
特に、文書の内容と明らかな関係がないスペクトル空間に埋め込まれているため、ユーザーに説明するのは困難です。
したがって、クラスタリングの結果を説明する方法を精緻化することが緊急に必要とされています。
この文書では、この目標への貢献を紹介します。
組み合わせラプラシアンベースのグラフスペクトルクラスタリングの結果を説明する提案を提示します。
これは、組み合わせラプラシアン埋め込み、$K$ 埋め込み (この論文で提案)、および項ベクトル空間埋め込みの (おおよその) 等価性を示すことに基づいています。
したがって、テキストの内容とクラスタリングの結果の間にブリッジが構築されます。
このアプローチの理論的背景を提供します。
$K$-embedding が好ましいブロック行列条件下でラプラシアン埋め込みによく近似することを示す実験研究を実行し、他の条件下でも近似が十分に良好であることを示しました。

要約(オリジナル)

Spectral clustering methods are known for their ability to represent clusters of diverse shapes, densities etc. However, results of such algorithms, when applied e.g. to text documents, are hard to explain to the user, especially due to embedding in the spectral space which has no obvious relation to document contents. Therefore there is an urgent need to elaborate methods for explaining the outcome of the clustering. This paper presents a contribution towards this goal. We present a proposal of explanation of results of combinatorial Laplacian based graph spectral clustering. It is based on showing (approximate) equivalence of combinatorial Laplacian embedding, $K$-embedding (proposed in this paper) and term vector space embedding. Hence a bridge is constructed between the textual contents and the clustering results. We provide theoretical background for this approach. We performed experimental study showing that $K$-embedding approximates well Laplacian embedding under favourable block matrix conditions and show that approximation is good enough under other conditions.

arxiv情報

著者 Bartłomiej Starosta,Mieczysław A. Kłopotek,Sławomir T. Wierzchoń
発行日 2023-08-01 12:39:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG パーマリンク