G2T: A simple but versatile framework for topic modeling based on pretrained language model and community detection

要約

タイトル:事前学習言語モデルとコミュニティ検知に基づくトピックモデリングのためのシンプルで多用途なフレームワーク、G2T

要約:
– 適切な単語選択方法で高品質の文の埋め込みをクラスタリングし、確率的トピックモデルよりも優れたトピックを生成できることが報告されている。
– しかし、これらのアプローチは、適切なパラメータを選択できないことや、トピックとテキストの間の単語との定量的な関係を見落とす不完全なモデルに苦しんでいる。
– これらの問題を解決するために、G2Tというシンプルで効果的なトピックモデリングのフレームワークを提案する。
– このフレームワークは、4つのモジュールで構成されている。第1に、事前学習を行った言語モデルを使って文書表現を取得する。第2に、文書表現間の類似性に基づいて意味グラフを構築する。第3に、文書意味グラフ内のコミュニティを特定し、トピックと文書の関係を定量化する。第4に、TFIDFの変形に基づいて、単語-トピック分布を計算する。
– 自動評価により、G2Tは異なる長さの英語文書および中国語文書で最新のパフォーマンスを達成したことが示された。人間の判断により、G2Tは基準よりも解釈性とカバレッジの高いトピックを生成できることが示された。
– さらに、G2Tはトピック数を自動的に決定することができるだけでなく、トピック内の単語と文書内のトピックの確率分布を与えることができる。
– 最後に、G2Tは公に利用可能であり、蒸留実験がどのように機能するかを説明する指示が与えられている。

要約(オリジナル)

It has been reported that clustering-based topic models, which cluster high-quality sentence embeddings with an appropriate word selection method, can generate better topics than generative probabilistic topic models. However, these approaches suffer from the inability to select appropriate parameters and incomplete models that overlook the quantitative relation between words with topics and topics with text. To solve these issues, we propose graph to topic (G2T), a simple but effective framework for topic modelling. The framework is composed of four modules. First, document representation is acquired using pretrained language models. Second, a semantic graph is constructed according to the similarity between document representations. Third, communities in document semantic graphs are identified, and the relationship between topics and documents is quantified accordingly. Fourth, the word–topic distribution is computed based on a variant of TFIDF. Automatic evaluation suggests that G2T achieved state-of-the-art performance on both English and Chinese documents with different lengths. Human judgements demonstrate that G2T can produce topics with better interpretability and coverage than baselines. In addition, G2T can not only determine the topic number automatically but also give the probabilistic distribution of words in topics and topics in documents. Finally, G2T is publicly available, and the distillation experiments provide instruction on how it works.

arxiv情報

著者 Leihang Zhang,Jiapeng Liu,Qiang Yan
発行日 2023-04-13 16:28:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク