Influence of various text embeddings on clustering performance in NLP

要約

タイトル: 自然言語処理におけるクラスタリングパフォーマンスにおける様々なテキスト埋め込みの影響
要約:
– Eコマースプラットフォームの出現とともに、レビューは製品の信頼性を評価するために顧客にとって重要なものとなっています。
– 星評価は、顧客によって書かれたレビューテキストと必ずしも一致しないことがあります。
– クラスタリングアプローチを使用することで、テキストレビューを個々のグループに分類し、正しい星評価を再ラベルすることができます。
– この論文では、様々なテキスト埋め込みの選択課題に取り組み、埋め込みの選択が異なるクラスタリングアルゴリズムのパフォーマンスにどのような影響を与えるかを探求します。
– コンテキスト(BERT)および非コンテキスト(Word2Vec)のテキスト埋め込みを使用してテキストを表現し、分割ベース(KMeans)、シングルリンクアゴメラティブ階層、密度ベース(DBSCANおよびHDBSCAN)の3クラスについて、異なる実験設定でそれぞれのアルゴリズムのパフォーマンスを測定します。
– シルエットスコア、調整済みランド指数スコア、クラスター純度スコアメトリクスを使用してアルゴリズムのパフォーマンスを評価し、異なる埋め込みがクラスタリングパフォーマンスに及ぼす影響について議論します。
– 結果は、選択された埋め込みの種類がアルゴリズムのパフォーマンスに大きく影響することを示し、パフォーマンスは異なるクラスタリングアルゴリズムによって大きく異なることがあり、埋め込みの種類が優れているわけではないことを示しています。また、DBSCANがKMeansおよびシングルリンクアゴメラティブクラスタリングを上回り、さらに多くのデータポイントを外れ値としてラベル付けすることがわかりました。
– 異なるアルゴリズムのパフォーマンスを詳しく比較し、テキストクラスタリングの領域でのさらなる研究の促進について多数のアイデアを提供しています。

要約(オリジナル)

With the advent of e-commerce platforms, reviews are crucial for customers to assess the credibility of a product. The star ratings do not always match the review text written by the customer. For example, a three star rating (out of five) may be incongruous with the review text, which may be more suitable for a five star review. A clustering approach can be used to relabel the correct star ratings by grouping the text reviews into individual groups. In this work, we explore the task of choosing different text embeddings to represent these reviews and also explore the impact the embedding choice has on the performance of various classes of clustering algorithms. We use contextual (BERT) and non-contextual (Word2Vec) text embeddings to represent the text and measure their impact of three classes on clustering algorithms – partitioning based (KMeans), single linkage agglomerative hierarchical, and density based (DBSCAN and HDBSCAN), each with various experimental settings. We use the silhouette score, adjusted rand index score, and cluster purity score metrics to evaluate the performance of the algorithms and discuss the impact of different embeddings on the clustering performance. Our results indicate that the type of embedding chosen drastically affects the performance of the algorithm, the performance varies greatly across different types of clustering algorithms, no embedding type is better than the other, and DBSCAN outperforms KMeans and single linkage agglomerative clustering but also labels more data points as outliers. We provide a thorough comparison of the performances of different algorithms and provide numerous ideas to foster further research in the domain of text clustering.

arxiv情報

著者 Rohan Saha
発行日 2023-05-04 20:53:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク