The Deep Latent Position Topic Model for Clustering and Representation of Networks with Textual Edges

要約

他者が公開したテキストコンテンツをユーザーが共有することにつながる数値的なインタラクションは、個人がノードに関連付けられ、交換されるテキストがエッジに関連付けられるネットワークによって自然に表現されます。
これらの異種混合で複雑なデータ構造を理解するには、ノードを同種のグループにクラスタリングすることと、データを分かりやすく視覚化することが必須です。
両方の問題に対処するために、Deep-LPTM を導入します。Deep-LPTM は、変分グラフ自動エンコーダ アプローチと議論のトピックを特徴付ける確率モデルに依存するモデルベースのクラスタリング戦略です。
Deep-LPTM を使用すると、2 つの埋め込み空間内のノードとエッジの結合表現を構築できます。
パラメーターは、変分推論アルゴリズムを使用して推論されます。
また、関連するクラスタリングと視覚化のプロパティを持つモデルを選択するために特別に設計されたモデル選択基準である IC2L も紹介します。
合成データに関する広範なベンチマーク調査が提供されます。
特に、Deep-LPTM は最先端の ETSBM や STBM よりもノードのパーティションをより良く回復できることがわかりました。
最終的に、エンロン社の電子メールが分析され、結果が視覚化され、グラフ構造の意味のあるハイライトが表示されます。

要約(オリジナル)

Numerical interactions leading to users sharing textual content published by others are naturally represented by a network where the individuals are associated with the nodes and the exchanged texts with the edges. To understand those heterogeneous and complex data structures, clustering nodes into homogeneous groups as well as rendering a comprehensible visualisation of the data is mandatory. To address both issues, we introduce Deep-LPTM, a model-based clustering strategy relying on a variational graph auto-encoder approach as well as a probabilistic model to characterise the topics of discussion. Deep-LPTM allows to build a joint representation of the nodes and of the edges in two embeddings spaces. The parameters are inferred using a variational inference algorithm. We also introduce IC2L, a model selection criterion specifically designed to choose models with relevant clustering and visualisation properties. An extensive benchmark study on synthetic data is provided. In particular, we find that Deep-LPTM better recovers the partitions of the nodes than the state-of-the art ETSBM and STBM. Eventually, the emails of the Enron company are analysed and visualisations of the results are presented, with meaningful highlights of the graph structure.

arxiv情報

著者 Rémi Boutin,Pierre Latouche,Charles Bouveyron
発行日 2024-02-13 14:14:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SI, stat.ME パーマリンク