Multilingual transformer and BERTopic for short text topic modeling: The case of Serbian

要約

本稿では、形態素が豊富な言語で書かれた短いテキストに、最先端のトピックモデリング手法であるBERTopicを初めて適用した結果を示す。セルビア語の部分的に前処理された短いテキストに対する性能を評価するために、3つの多言語埋め込みモデルによるBERTopicを、2つのレベルのテキスト前処理(部分的と完全)に適用した。また、完全に前処理されたテキストに対するLDAやNMFとも比較した。実験は、COVID-19ワクチン接種に対するためらいを表現するツイートのデータセットに対して行った。その結果、適切なパラメータ設定により、BERTopicは、部分的に前処理された短いテキストに適用した場合でも、有益なトピックを得られることが示された。両方の前処理シナリオで同じパラメータを適用した場合、部分的に前処理されたテキストでの性能低下は最小限である。LDAやNMFと比較して、キーワードから判断すると、BERTopicはより有益なトピックを提供し、トピック数が制限されない場合には、新しい洞察を与える。本稿で得られた知見は、他の形態素が豊富な低リソース言語や短いテキストを扱う再検索者にとって重要である。

要約(オリジナル)

This paper presents the results of the first application of BERTopic, a state-of-the-art topic modeling technique, to short text written in a morphologi-cally rich language. We applied BERTopic with three multilingual embed-ding models on two levels of text preprocessing (partial and full) to evalu-ate its performance on partially preprocessed short text in Serbian. We also compared it to LDA and NMF on fully preprocessed text. The experiments were conducted on a dataset of tweets expressing hesitancy toward COVID-19 vaccination. Our results show that with adequate parameter setting, BERTopic can yield informative topics even when applied to partially pre-processed short text. When the same parameters are applied in both prepro-cessing scenarios, the performance drop on partially preprocessed text is minimal. Compared to LDA and NMF, judging by the keywords, BERTopic offers more informative topics and gives novel insights when the number of topics is not limited. The findings of this paper can be significant for re-searchers working with other morphologically rich low-resource languages and short text.

arxiv情報

著者 Darija Medvecki,Bojana Bašaragin,Adela Ljajić,Nikola Milošević
発行日 2024-02-05 14:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク