A Novel Method of Fuzzy Topic Modeling based on Transformer Processing


従来、潜在ディリクレ配分 (LDA) は、この種の情報を取得するために必須のモデルと考えられています。
LDA のトークン条件付き確率を使用してキーワードを推定するメリットを考慮すると、最も可能性の高い、または本質的なトピックを知ることができます。
LDA は、考えられる最初の関連キーワードを提供しますが、統計的な可能性に基づいて接続が信頼できるかどうかという別の問題も生じます。
ファジー メンバーシップを使用してクラスタリングを行い、トランスフォーマーを使用して単語を埋め込むという急成長するトレンドとして、この研究では、最先端のトランスフォーマー ベースのモデルからのソフト クラスタリングとドキュメント埋め込みに基づくファジー トピック モデリングを紹介します。
プレスリリースのモニタリングにおける実際のアプリケーションでは、ファジートピックモデリングにより、LDA からの従来の出力よりも自然な結果が得られます。


Topic modeling is admittedly a convenient way to monitor markets trend. Conventionally, Latent Dirichlet Allocation, LDA, is considered a must-do model to gain this type of information. By given the merit of deducing keyword with token conditional probability in LDA, we can know the most possible or essential topic. However, the results are not intuitive because the given topics cannot wholly fit human knowledge. LDA offers the first possible relevant keywords, which also brings out another problem of whether the connection is reliable based on the statistic possibility. It is also hard to decide the topic number manually in advance. As the booming trend of using fuzzy membership to cluster and using transformers to embed words, this work presents the fuzzy topic modeling based on soft clustering and document embedding from state-of-the-art transformer-based model. In our practical application in a press release monitoring, the fuzzy topic modeling gives a more natural result than the traditional output from LDA.


著者 Ching-Hsun Tseng,Shin-Jye Lee,Po-Wei Cheng,Chien Lee,Chih-Chieh Hung
発行日 2023-09-18 10:52:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク