Text Clustering with LLM Embeddings

要約

テキスト クラスタリングは、増加するデジタル コンテンツを整理するための重要な方法であり、分類されていないデータ内の隠れたパターンの構造化と発見に役立ちます。
テキスト クラスタリングの有効性は、テキスト埋め込みとクラスタリング アルゴリズムの選択に大きく依存します。
この研究では、大規模言語モデル (LLM) の最近の進歩により、このタスクが強化される可能性があると主張しています。
この研究では、さまざまなテキスト埋め込み、特に LLM で利用される埋め込み、およびさまざまなクラスタリング アルゴリズムがテキスト データセットのクラスタリングにどのような影響を与えるかを調査しています。
クラスタリング結果に対する埋め込みの影響、要約による次元削減の役割、モデル サイズの調整を評価するために、一連の実験が行われました。
この調査結果は、LLM 埋め込みが構造化言語の微妙な点を捉える点で優れていることを示しています。
OpenAI の GPT-3.5 Turbo モデルは、ほとんどのテスト済みデータセットのクラスタリング メトリクスの 5 つのうち 3 つでより良い結果をもたらします。
ほとんどの LLM 埋め込みでは、クラスター純度の向上が見られ、従来の方法と比較してテキスト データの洗練された構造的理解を反映して、より有益なシルエット スコアが提供されます。
BERTは軽量モデルの中でもトップクラスのパフォーマンスを発揮します。
さらに、モデルの次元を増やしたり、要約手法を使用したりしても、クラスタリング効率が一貫して向上しないことが観察されており、これらの戦略は実際の適用には慎重な検討が必要であることが示唆されています。
これらの結果は、洗練されたテキスト表現の必要性とテキスト クラスタリング アプリケーションにおける計算実行可能性の間の複雑なバランスを浮き彫りにしています。
この研究は、LLM からの埋め込みを統合することで従来のテキスト クラスタリング フレームワークを拡張し、改善された方法論を提供し、さまざまな種類のテキスト分析における将来の研究に新しい道を提案します。

要約(オリジナル)

Text clustering is an important method for organising the increasing volume of digital content, aiding in the structuring and discovery of hidden patterns in uncategorised data. The effectiveness of text clustering largely depends on the selection of textual embeddings and clustering algorithms. This study argues that recent advancements in large language models (LLMs) have the potential to enhance this task. The research investigates how different textual embeddings, particularly those utilised in LLMs, and various clustering algorithms influence the clustering of text datasets. A series of experiments were conducted to evaluate the impact of embeddings on clustering results, the role of dimensionality reduction through summarisation, and the adjustment of model size. The findings indicate that LLM embeddings are superior at capturing subtleties in structured language. OpenAI’s GPT-3.5 Turbo model yields better results in three out of five clustering metrics across most tested datasets. Most LLM embeddings show improvements in cluster purity and provide a more informative silhouette score, reflecting a refined structural understanding of text data compared to traditional methods. Among the more lightweight models, BERT demonstrates leading performance. Additionally, it was observed that increasing model dimensionality and employing summarisation techniques do not consistently enhance clustering efficiency, suggesting that these strategies require careful consideration for practical application. These results highlight a complex balance between the need for refined text representation and computational feasibility in text clustering applications. This study extends traditional text clustering frameworks by integrating embeddings from LLMs, offering improved methodologies and suggesting new avenues for future research in various types of textual analysis.

arxiv情報

著者 Alina Petukhova,João P. Matos-Carvalho,Nuno Fachada
発行日 2024-08-09 16:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.6 パーマリンク