Persian topic detection based on Human Word association and graph embedding

要約

この論文では、ヒューマンワードアソシエーションに基づいてソーシャルメディアのトピックを検出するためのフレームワークを提案します。
これらのメディアで議論されているトピックを特定することは、重要かつ重要な課題となっています。
この分野で行われた作業のほとんどは英語で行われましたが、ペルシア語で書かれたマイクロブログなど、多くの作業がペルシャ語で行われました。
また、既存の作品は、頻繁なパターンや意味的関係を探求することに重点を置いており、言語の構造的な方法を無視していました。
この論文では、ヒューマンワードアソシエーションの方法であるHWAを使用したトピック検出フレームワークが提案されています。
この方法は、単語連想の精神的能力の模倣の概念を使用しています。
このメソッドは、単語がどのように関連しているかを示す連想重力も計算します。
このパラメータを使用して、グラフを生成できます。
このグラフを埋め込み、クラスタリング手法を用いることでトピックを抽出することができます。
このアプローチは、Telegram から収集されたペルシャ語のデータセットに適用されています。
提案されたフレームワークのパフォーマンスを評価するために、いくつかの実験的研究が行われました。
実験結果は、このアプローチが他のトピック検出方法よりもうまく機能することを示しています。

要約(オリジナル)

In this paper, we propose a framework to detect topics in social media based on Human Word Association. Identifying topics discussed in these media has become a critical and significant challenge. Most of the work done in this area is in English, but much has been done in the Persian language, especially microblogs written in Persian. Also, the existing works focused more on exploring frequent patterns or semantic relationships and ignored the structural methods of language. In this paper, a topic detection framework using HWA, a method for Human Word Association, is proposed. This method uses the concept of imitation of mental ability for word association. This method also calculates the Associative Gravity Force that shows how words are related. Using this parameter, a graph can be generated. The topics can be extracted by embedding this graph and using clustering methods. This approach has been applied to a Persian language dataset collected from Telegram. Several experimental studies have been performed to evaluate the proposed framework’s performance. Experimental results show that this approach works better than other topic detection methods.

arxiv情報

著者 Mehrdad Ranjbar-Khadivi,Shahin Akbarpour,Mohammad-Reza Feizi-Derakhshi,Babak Anari
発行日 2023-02-20 05:46:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SI パーマリンク