A Novel Method of Fuzzy Topic Modeling based on Transformer Processing

要約

トピックモデリングは、確かに市場の傾向を監視する便利な方法です。
従来、潜在ディリクレ配分 (LDA) は、この種の情報を取得するために必須のモデルと考えられています。
LDA のトークン条件付き確率を使用してキーワードを推定するメリットを考慮すると、最も可能性の高い、または本質的なトピックを知ることができます。
ただし、与えられたトピックが人間の知識に完全に適合するわけではないため、結果は直感的ではありません。
LDA は、考えられる最初の関連キーワードを提供しますが、統計的な可能性に基づいて接続が信頼できるかどうかという別の問題も生じます。
また、トピック番号を事前に手動で決定することも困難です。
ファジー メンバーシップを使用してクラスタリングを行い、トランスフォーマーを使用して単語を埋め込むという急成長するトレンドとして、この研究では、最先端のトランスフォーマー ベースのモデルからのソフト クラスタリングとドキュメント埋め込みに基づくファジー トピック モデリングを紹介します。
プレスリリースのモニタリングにおける実際のアプリケーションでは、ファジートピックモデリングにより、LDA からの従来の出力よりも自然な結果が得られます。

要約(オリジナル)

Topic modeling is admittedly a convenient way to monitor markets trend. Conventionally, Latent Dirichlet Allocation, LDA, is considered a must-do model to gain this type of information. By given the merit of deducing keyword with token conditional probability in LDA, we can know the most possible or essential topic. However, the results are not intuitive because the given topics cannot wholly fit human knowledge. LDA offers the first possible relevant keywords, which also brings out another problem of whether the connection is reliable based on the statistic possibility. It is also hard to decide the topic number manually in advance. As the booming trend of using fuzzy membership to cluster and using transformers to embed words, this work presents the fuzzy topic modeling based on soft clustering and document embedding from state-of-the-art transformer-based model. In our practical application in a press release monitoring, the fuzzy topic modeling gives a more natural result than the traditional output from LDA.

arxiv情報

著者 Ching-Hsun Tseng,Shin-Jye Lee,Po-Wei Cheng,Chien Lee,Chih-Chieh Hung
発行日 2023-09-18 10:52:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク