Probing the statistical properties of enriched co-occurrence networks

要約

最近の研究では、特に短いテキストのグラフ表現を強化するために、単語埋め込みを用いて単語の共起ネットワークに仮想エッジを追加することが検討されている。これらの強化されたネットワークはある程度の成功を示しているが、従来の共起ネットワークに意味的エッジを組み込むことの影響はまだ不明である。本研究では、テキストベースのネットワークモデルの2つの重要な統計的特性を調査する。第一に、ネットワークメトリクスが意味のないテキストと意味のあるテキストを効果的に区別できるかどうかを評価する。第二に、これらのメトリクスはテキストの構文的側面と意味的側面のどちらに敏感かを分析する。その結果、仮想エッジを組み込むことで、特定のネットワークメトリクスによって、プラスとマイナスの効果があることがわかった。例えば、平均最短パスと近さ中心性の情報量は短いテキストで改善される一方、クラスタリング係数の情報量は仮想エッジが追加されるにつれて減少する。さらに、ストップワードを含めると、エンリッチネットワークの統計的特性に影響を与えることがわかった。我々の結果は、典型的なテキストサイズと問題の性質に応じて、特定のアプリケーションに最も適したネットワークメトリクスを決定するためのガイドラインとして役立つ。

要約(オリジナル)

Recent studies have explored the addition of virtual edges to word co-occurrence networks using word embeddings to enhance graph representations, particularly for short texts. While these enriched networks have demonstrated some success, the impact of incorporating semantic edges into traditional co-occurrence networks remains uncertain. This study investigates two key statistical properties of text-based network models. First, we assess whether network metrics can effectively distinguish between meaningless and meaningful texts. Second, we analyze whether these metrics are more sensitive to syntactic or semantic aspects of the text. Our results show that incorporating virtual edges can have positive and negative effects, depending on the specific network metric. For instance, the informativeness of the average shortest path and closeness centrality improves in short texts, while the clustering coefficient’s informativeness decreases as more virtual edges are added. Additionally, we found that including stopwords affects the statistical properties of enriched networks. Our results can serve as a guideline for determining which network metrics are most appropriate for specific applications, depending on the typical text size and the nature of the problem.

arxiv情報

著者 Diego R. Amancio,Jeaneth Machicao,Laura V. C. Quispe
発行日 2024-12-03 18:38:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SI パーマリンク