A comprehensive study on Frequent Pattern Mining and Clustering categories for topic detection in Persian text stream


この研究の目的は、1) トピック検出に最適なアルゴリズムに関する広範な研究を実施すること、2) これらのアルゴリズムをペルシア語に適したものにするために必要な適応を特定すること、および 3) ペルシア語のソーシャル ネットワーク テキストでのパフォーマンスを評価することです。

これらの目的を達成するために、私たちは 2 つの研究課題を策定しました。まず、ペルシア語での研究が不足していることを考慮して、既存のフレームワーク、特に英語で開発されたフレームワークをペルシア語と互換性を持たせるためにどのような修正を加えるべきでしょうか?
次に、これら 3 つのカテゴリから 10 の方法が選択されます。
これら 10 個の方法には、さまざまなタイプのトピック検出方法が含まれており、英語で優れたパフォーマンスを示しています。
ペルシャ語のソーシャル ネットワーク投稿のテキストがデータセットとして使用されます。
さらに、FS と呼ばれる新しいマルチクラス評価基準が、この論文で初めてトピック検出の分野で使用されます。
実験中に約 14 億のトークンが処理されます。
この結果は、人間が理解しやすいキーワード トピックを検索する場合は、ハイブリッド カテゴリの方が優れていることを示しています。
ただし、さらなる分析のために投稿をクラスタリングすることが目的の場合は、頻繁なパターン カテゴリの方が適しています。


Topic detection is a complex process and depends on language because it somehow needs to analyze text. There have been few studies on topic detection in Persian, and the existing algorithms are not remarkable. Therefore, we aimed to study topic detection in Persian. The objectives of this study are: 1) to conduct an extensive study on the best algorithms for topic detection, 2) to identify necessary adaptations to make these algorithms suitable for the Persian language, and 3) to evaluate their performance on Persian social network texts. To achieve these objectives, we have formulated two research questions: First, considering the lack of research in Persian, what modifications should be made to existing frameworks, especially those developed in English, to make them compatible with Persian? Second, how do these algorithms perform, and which one is superior? There are various topic detection methods that can be categorized into different categories. Frequent pattern and clustering are selected for this research, and a hybrid of both is proposed as a new category. Then, ten methods from these three categories are selected. All of them are re-implemented from scratch, changed, and adapted with Persian. These ten methods encompass different types of topic detection methods and have shown good performance in English. The text of Persian social network posts is used as the dataset. Additionally, a new multiclass evaluation criterion, called FS, is used in this paper for the first time in the field of topic detection. Approximately 1.4 billion tokens are processed during experiments. The results indicate that if we are searching for keyword-topics that are easily understandable by humans, the hybrid category is better. However, if the aim is to cluster posts for further analysis, the frequent pattern category is more suitable.


著者 Elnaz Zafarani-Moattar,Mohammad Reza Kangavari,Amir Masoud Rahmani
発行日 2024-03-15 12:08:58+00:00
