Persian topic detection based on Human Word association and graph embedding

要約

この論文では、人間の単語の関連付けに基づいてソーシャルメディアのトピックを検出するためのフレームワークを提案します。
これらのメディアで議論されているトピックを特定することは、重要かつ重要な課題となっています。
この分野で行われている作業のほとんどは英語ですが、多くはペルシア語で行われており、特にミニブログはペルシア語で書かれています。
また、既存の研究は、頻繁に発生するパターンや意味関係を探ることに重点を置き、言語の構造的方法を無視していました。
本稿では、人間の単語関連付け手法であるHWAを用いたトピック検出フレームワークを提案する。
この方法は、単語の連想に対する精神的能力の模倣の概念を使用します。
このメソッドは、単語がどのように関連しているかを示す連想重力も計算します。
このパラメータを使用すると、グラフを生成できます。
このグラフを埋め込み、クラスタリング手法を使用することでトピックを抽出できます。
このアプローチは、Telegram から収集されたペルシア語データセットに適用されています。
提案されたフレームワークのパフォーマンスを評価するために、いくつかの実験研究が実行されました。
実験結果は、このアプローチが他のトピック検出方法よりもうまく機能することを示しています。

要約(オリジナル)

In this paper, we propose a framework to detect topics in social media based on Human Word Association. Identifying topics discussed in these media has become a critical and significant challenge. Most of the work done in this area is in English, but much has been done in the Persian language, especially microblogs written in Persian. Also, the existing works focused more on exploring frequent patterns or semantic relationships and ignored the structural methods of language. In this paper, a topic detection framework using HWA, a method for Human Word Association, is proposed. This method uses the concept of imitation of mental ability for word association. This method also calculates the Associative Gravity Force that shows how words are related. Using this parameter, a graph can be generated. The topics can be extracted by embedding this graph and using clustering methods. This approach has been applied to a Persian language dataset collected from Telegram. Several experimental studies have been performed to evaluate the proposed framework’s performance. Experimental results show that this approach works better than other topic detection methods.

arxiv情報

著者 Mehrdad Ranjbar-Khadivi,Shahin Akbarpour,Mohammad-Reza Feizi-Derakhshi,Babak Anari
発行日 2023-07-18 10:19:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SI パーマリンク