要約
【タイトル】
Vec2GC — テキスト表現のグラフベースのクラスタリング手法
【要約】
– ラベルなしの自然言語処理(NLP)パイプラインでは、文書処理において無監督手法が頼りとなることがある。
– 無監督手法は、一般的に用語や文書のクラスタリングに依存している。
– 本論文では、テキストコーパスにおける任意の用語や文書をクラスタリングするための、新しいクラスタリングアルゴリズムであるVec2GC(Vector to Graph Communities)を提案する。
– 当手法は、テキスト表現学習によって作成された用語や文書の重みグラフ上でコミュニティ検出を行う。
– Vec2GCクラスタリングアルゴリズムは、密度ベースのアプローチであり、階層的クラスタリングをサポートしている。
要約(オリジナル)
NLP pipelines with limited or no labeled data, rely on unsupervised methods for document processing. Unsupervised approaches typically depend on clustering of terms or documents. In this paper, we introduce a novel clustering algorithm, Vec2GC (Vector to Graph Communities), an end-to-end pipeline to cluster terms or documents for any given text corpus. Our method uses community detection on a weighted graph of the terms or documents, created using text representation learning. Vec2GC clustering algorithm is a density based approach, that supports hierarchical clustering as well.
arxiv情報
著者 | Rajesh N Rao,Manojit Chakraborty |
発行日 | 2023-04-12 06:41:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI