G2T: A Simple but Effective Framework for Topic Modeling based on Pretrained Language Model and Community Detection

要約

タイトル:事前学習された言語モデルとコミュニティ検出に基づくトピックモデリングのためのシンプルなが有効なフレームワークG2T

要約:

– 適切な単語の選択方法で高品質な文章の埋め込みをクラスタリングするクラスタリングベースのトピックモデルは、生成的な確率的トピックモデルよりも優れたトピックを生成できることが報告されています。
– しかし、これらのアプローチは適切なパラメータを選択する能力の欠如と、単語とトピック、トピックとテキストの間の定量的な関係を見落とす不完全なモデルに苦しんでいます。
– これらの問題を解決するために、我々はトピックモデリングのためのシンプルで効果的なフレームワークであるグラフ・トゥ・トピック(G2T)を提案します。
– このフレームワークは4つのモジュールで構成されています。1つ目は、事前学習された言語モデルを使用して文書表現を獲得することです。2つ目は、文書表現の類似度に基づいて意味グラフを構築することです。
– 3つ目は、文書意味グラフ内のコミュニティを識別し、トピックと文書の関係を数量化することです。4つ目は、TFIDFの変種に基づいて単語-トピック分布を計算することです。
– 自動評価によると、G2Tは長さが異なる英語と中国語の文書の両方で最先端の性能を発揮しました。人間の判断は、G2Tがベースラインよりも解釈性とカバレッジの向上したトピックを生成できることを示しています。
– また、G2Tはトピック数を自動的に決定するだけでなく、トピック内の単語と文書内のトピックの確率分布も与えることができます。最後に、G2Tは公開されており、ダイジェスト実験はその作業方法を示しています。

要約(オリジナル)

It has been reported that clustering-based topic models, which cluster high-quality sentence embeddings with an appropriate word selection method, can generate better topics than generative probabilistic topic models. However, these approaches suffer from the inability to select appropriate parameters and incomplete models that overlook the quantitative relation between words with topics and topics with text. To solve these issues, we propose graph to topic (G2T), a simple but effective framework for topic modelling. The framework is composed of four modules. First, document representation is acquired using pretrained language models. Second, a semantic graph is constructed according to the similarity between document representations. Third, communities in document semantic graphs are identified, and the relationship between topics and documents is quantified accordingly. Fourth, the word–topic distribution is computed based on a variant of TFIDF. Automatic evaluation suggests that G2T achieved state-of-the-art performance on both English and Chinese documents with different lengths. Human judgements demonstrate that G2T can produce topics with better interpretability and coverage than baselines. In addition, G2T can not only determine the topic number automatically but also give the probabilistic distribution of words in topics and topics in documents. Finally, G2T is publicly available, and the distillation experiments provide instruction on how it works.

arxiv情報

著者 Leihang Zhang,Jiapeng Liu,Qiang Yan
発行日 2023-04-14 02:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク