Text clustering with LLM embeddings

要約

テキスト クラスタリングは、増え続けるデジタル コンテンツを整理するための重要なアプローチであり、分類されていないデータの構造化と隠れたパターンの発見に役立ちます。
ただし、テキスト クラスタリングの有効性は、テキスト埋め込みとクラスタリング アルゴリズムの選択に大きく依存します。
大規模言語モデル (LLM) の最近の進歩により、このタスクが改善される可能性があると私たちは主張します。
この研究では、さまざまなテキスト埋め込み (特に LLM で使用される埋め込み) とクラスタリング アルゴリズムが、テキスト データセットのクラスタリング方法にどのような影響を与えるかを調査しました。
埋め込みがクラスタリング結果にどのような影響を与えるか、要約による次元削減が果たす役割、およびモデル サイズの調整を評価するために、一連の実験が行われました。
調査結果から、LLM 埋め込みは構造化言語の微妙な点を捉えることに優れているのに対し、BERT はパフォーマンスの点で軽量オプションをリードしていることが明らかになりました。
さらに、モデルの次元を増やしたり、要約手法を使用したりしても、クラスタリング効率の改善が一貫して行われないことも観察されており、これらの戦略を実際のモデルで使用するには慎重な分析が必要であることが示唆されています。
これらの結果は、洗練されたテキスト表現の必要性とテキスト クラスタリング アプリケーションにおける計算実行可能性の間の複雑なバランスを浮き彫りにしています。
この研究は、LLM からの埋め込みを組み込むことで従来のテキスト クラスタリング フレームワークを拡張し、改善された方法論への道を提供すると同時に、さまざまなタイプのテキスト分析における将来の研究に新しい道を提供します。

要約(オリジナル)

Text clustering is an important approach for organising the growing amount of digital content, helping to structure and find hidden patterns in uncategorised data. However, the effectiveness of text clustering heavily relies on the choice of textual embeddings and clustering algorithms. We argue that recent advances in large language models (LLMs) can potentially improve this task. In this research, we investigated how different textual embeddings — particularly those used in LLMs — and clustering algorithms affect how text datasets are clustered. A series of experiments were conducted to assess how embeddings influence clustering results, the role played by dimensionality reduction through summarisation, and model size adjustment. Findings reveal that LLM embeddings excel at capturing subtleties in structured language, while BERT leads the lightweight options in performance. In addition, we observe that increasing model dimensionality and employing summarization techniques do not consistently lead to improvements in clustering efficiency, suggesting that these strategies require careful analysis to use in real-life models. These results highlight a complex balance between the need for refined text representation and computational feasibility in text clustering applications. This study extends traditional text clustering frameworks by incorporating embeddings from LLMs, providing a path for improved methodologies, while informing new avenues for future research in various types of textual analysis.

arxiv情報

著者 Alina Petukhova,João P. Matos-Carvalho,Nuno Fachada
発行日 2024-05-30 15:17:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.6 パーマリンク