A comprehensive study on Frequent Pattern Mining and Clustering categories for topic detection in Persian text stream

要約

トピック検出は複雑なプロセスであり、何らかの方法でテキストを分析する必要があるため、言語に依存します。
ペルシア語のトピック検出に関する研究はほとんどなく、既存のアルゴリズムも注目に値するものではありません。
したがって、私たちはペルシア語におけるトピック検出を研究することを目的としました。
この研究の目的は、1) トピック検出に最適なアルゴリズムに関する広範な研究を実施すること、2) これらのアルゴリズムをペルシア語に適したものにするために必要な適応を特定すること、および 3) ペルシア語のソーシャル ネットワーク テキストでのパフォーマンスを評価することです。

これらの目的を達成するために、私たちは 2 つの研究課題を策定しました。まず、ペルシア語での研究が不足していることを考慮して、既存のフレームワーク、特に英語で開発されたフレームワークをペルシア語と互換性を持たせるためにどのような修正を加えるべきでしょうか?
次に、これらのアルゴリズムはどのように実行され、どれが優れているのでしょうか?
さまざまなカテゴリに分類できるさまざまなトピック検出方法があります。
この研究では、頻度の高いパターンとクラスタリングが選択され、両方のハイブリッドが新しいカテゴリとして提案されます。
次に、これら 3 つのカテゴリから 10 の方法が選択されます。
それらはすべて最初から再実装され、変更され、ペルシャ語に適応されています。
これら 10 個の方法には、さまざまなタイプのトピック検出方法が含まれており、英語で優れたパフォーマンスを示しています。
ペルシャ語のソーシャル ネットワーク投稿のテキストがデータセットとして使用されます。
さらに、FS と呼ばれる新しいマルチクラス評価基準が、この論文で初めてトピック検出の分野で使用されます。
実験中に約 14 億のトークンが処理されます。
この結果は、人間が理解しやすいキーワード トピックを検索する場合は、ハイブリッド カテゴリの方が優れていることを示しています。
ただし、さらなる分析のために投稿をクラスタリングすることが目的の場合は、頻繁なパターン カテゴリの方が適しています。

要約(オリジナル)

Topic detection is a complex process and depends on language because it somehow needs to analyze text. There have been few studies on topic detection in Persian, and the existing algorithms are not remarkable. Therefore, we aimed to study topic detection in Persian. The objectives of this study are: 1) to conduct an extensive study on the best algorithms for topic detection, 2) to identify necessary adaptations to make these algorithms suitable for the Persian language, and 3) to evaluate their performance on Persian social network texts. To achieve these objectives, we have formulated two research questions: First, considering the lack of research in Persian, what modifications should be made to existing frameworks, especially those developed in English, to make them compatible with Persian? Second, how do these algorithms perform, and which one is superior? There are various topic detection methods that can be categorized into different categories. Frequent pattern and clustering are selected for this research, and a hybrid of both is proposed as a new category. Then, ten methods from these three categories are selected. All of them are re-implemented from scratch, changed, and adapted with Persian. These ten methods encompass different types of topic detection methods and have shown good performance in English. The text of Persian social network posts is used as the dataset. Additionally, a new multiclass evaluation criterion, called FS, is used in this paper for the first time in the field of topic detection. Approximately 1.4 billion tokens are processed during experiments. The results indicate that if we are searching for keyword-topics that are easily understandable by humans, the hybrid category is better. However, if the aim is to cluster posts for further analysis, the frequent pattern category is more suitable.

arxiv情報

著者 Elnaz Zafarani-Moattar,Mohammad Reza Kangavari,Amir Masoud Rahmani
発行日 2024-03-15 12:08:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク