Towards the TopMost: A Topic Modeling System Toolkit


トピック モデルは、さまざまなアプリケーションで数十年にわたって提案されてきましたが、最近、ニューラル変分推論によって更新されました。
ただし、これらのトピック モデルは、まったく異なるデータセット、実装、評価設定を採用しているため、迅速な利用や公正な比較が妨げられています。
これらの問題に対処するために、この文書ではトピック モデリング システム ツールキット (TopMost) を提案します。
既存のツールキットと比較して、TopMost は、データセットの前処理、モデルのトレーニング、テスト、評価を含む完全なライフサイクルを含む、幅広いトピック モデリング シナリオをカバーすることで際立っています。
TopMost の高度に結合し分離されたモジュラー設計により、さまざまなトピック モデルの迅速な利用、公平な比較、および柔軟な拡張が可能になります。
これにより、トピック モデルの研究と適用が容易になります。
コード、チュートリアル、ドキュメントは で入手できます。


Topic models have been proposed for decades with various applications and recently refreshed by the neural variational inference. However, these topic models adopt totally distinct dataset, implementation, and evaluation settings, which hinders their quick utilization and fair comparisons. This greatly hinders the research progress of topic models. To address these issues, in this paper we propose a Topic Modeling System Toolkit (TopMost). Compared to existing toolkits, TopMost stands out by covering a wider range of topic modeling scenarios including complete lifecycles with dataset pre-processing, model training, testing, and evaluations. The highly cohesive and decoupled modular design of TopMost enables quick utilization, fair comparisons, and flexible extensions of different topic models. This can facilitate the research and applications of topic models. Our code, tutorials, and documentation are available at


著者 Xiaobao Wu,Fengjun Pan,Anh Tuan Luu
発行日 2023-09-13 12:10:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク