Towards the TopMost: A Topic Modeling System Toolkit

要約

トピック モデルにはさまざまなアプリケーションで豊かな歴史があり、最近ではニューラル トピック モデリングによって再活性化されています。
ただし、これらの多数のトピック モデルは、まったく異なるデータセット、実装、評価を採用しています。
これは迅速な利用と公正な比較を妨げ、研究の進歩と応用を妨げます。
この課題に取り組むために、この文書ではトピック モデリング システム ツールキット (TopMost) を提案します。
既存のツールキットと比較して、TopMost はより広範な機能をサポートすることで際立っています。
データセット、前処理、モデル、トレーニング、評価を含む、より広範囲のトピック モデリング シナリオとその完全なライフサイクルをカバーします。
TopMost は、凝集性が高く分離されたモジュラー設計のおかげで、多様な最先端のトピック モデルの迅速な利用、公平な比較、および柔軟な拡張を可能にします。
コード、チュートリアル、ドキュメントは https://github.com/bobxwu/topmost で入手できます。

要約(オリジナル)

Topic models have a rich history with various applications and have recently been reinvigorated by neural topic modeling. However, these numerous topic models adopt totally distinct datasets, implementations, and evaluations. This impedes quick utilization and fair comparisons, and thereby hinders their research progress and applications. To tackle this challenge, we in this paper propose a Topic Modeling System Toolkit (TopMost). Compared to existing toolkits, TopMost stands out by supporting more extensive features. It covers a broader spectrum of topic modeling scenarios with their complete lifecycles, including datasets, preprocessing, models, training, and evaluations. Thanks to its highly cohesive and decoupled modular design, TopMost enables rapid utilization, fair comparisons, and flexible extensions of diverse cutting-edge topic models. Our code, tutorials, and documentation are available at https://github.com/bobxwu/topmost.

arxiv情報

著者 Xiaobao Wu,Fengjun Pan,Anh Tuan Luu
発行日 2024-06-14 16:27:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク