Graph2topic: an opensource topic modeling framework based on sentence embedding and community detection

要約

適切な単語選択方法を使用して高品質の文埋め込みをクラスタリングするクラスタリングベースのトピック モデルは、生成確率的トピック モデルよりも優れたトピックを生成できることが報告されています。
しかし、これらのアプローチには、適切なパラメータを選択できないことと、単語とトピック、およびトピックとテキストの間の定量的な関係を見落とす不完全なモデルという問題があります。
これらの問題を解決するために、トピック モデリングのためのシンプルだが効果的なフレームワークである graph to topic (G2T) を提案します。
フレームワークは 4 つのモジュールで構成されます。
まず、事前トレーニングされた言語モデルを使用してドキュメント表現を取得します。
第 2 に、文書表現間の類似性に基づいてセマンティック グラフが構築されます。
第三に、ドキュメント セマンティック グラフ内のコミュニティが特定され、それに応じてトピックとドキュメントの間の関係が定量化されます。
第 4 に、単語とトピックの分布が TFIDF の変形に基づいて計算されます。
自動評価は、G2T が長さの異なる英語と中国語の両方のドキュメントで最先端のパフォーマンスを達成したことを示しています。

要約(オリジナル)

It has been reported that clustering-based topic models, which cluster high-quality sentence embeddings with an appropriate word selection method, can generate better topics than generative probabilistic topic models. However, these approaches suffer from the inability to select appropriate parameters and incomplete models that overlook the quantitative relation between words with topics and topics with text. To solve these issues, we propose graph to topic (G2T), a simple but effective framework for topic modelling. The framework is composed of four modules. First, document representation is acquired using pretrained language models. Second, a semantic graph is constructed according to the similarity between document representations. Third, communities in document semantic graphs are identified, and the relationship between topics and documents is quantified accordingly. Fourth, the word–topic distribution is computed based on a variant of TFIDF. Automatic evaluation suggests that G2T achieved state-of-the-art performance on both English and Chinese documents with different lengths.

arxiv情報

著者 Leihang Zhang,Jiapeng Liu,Qiang Yan
発行日 2023-06-06 11:56:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク