Text clustering with LLM embeddings

要約

テキスト クラスタリングは、増え続けるデジタル コンテンツを整理するための重要なアプローチであり、分類されていないデータの構造化と隠れたパターンの発見に役立ちます。
この研究では、さまざまなテキスト埋め込み (特に大規模言語モデル (LLM) で使用される埋め込み) とクラスタリング アルゴリズムが、テキスト データセットのクラスタリング方法にどのような影響を与えるかを調査しました。
埋め込みがクラスタリング結果にどのような影響を与えるか、要約による次元削減が果たす役割、および埋め込みサイズの調整を評価するために、一連の実験が行われました。
結果は、LLM 埋め込みが構造化言語のニュアンスの捕捉に優れているのに対し、BERT がパフォーマンスの点で軽量オプションをリードしていることを明らかにしました。
さらに、埋め込み次元と要約手法を増やしてもクラスタリング効率が一様に向上しないことがわかり、これらの戦略を現実のモデルで使用するには慎重な分析が必要であることが示唆されています。
これらの結果は、テキスト クラスタリング アプリケーションにおける微妙なテキスト表現の必要性と計算上の実行可能性の間の複雑なバランスを浮き彫りにしています。
この研究は、LLM からの埋め込みを組み込むことで従来のテキスト クラスタリング フレームワークを拡張し、それによって方法論の改善への道を開き、さまざまな種類のテキスト分析における将来の研究に新しい道を切り開きます。

要約(オリジナル)

Text clustering is an important approach for organising the growing amount of digital content, helping to structure and find hidden patterns in uncategorised data. In this research, we investigated how different textual embeddings – particularly those used in large language models (LLMs) – and clustering algorithms affect how text datasets are clustered. A series of experiments were conducted to assess how embeddings influence clustering results, the role played by dimensionality reduction through summarisation, and embedding size adjustment. Results reveal that LLM embeddings excel at capturing the nuances of structured language, while BERT leads the lightweight options in performance. In addition, we find that increasing embedding dimensionality and summarisation techniques do not uniformly improve clustering efficiency, suggesting that these strategies require careful analysis to use in real-life models. These results highlight a complex balance between the need for nuanced text representation and computational feasibility in text clustering applications. This study extends traditional text clustering frameworks by incorporating embeddings from LLMs, thereby paving the way for improved methodologies and opening new avenues for future research in various types of textual analysis.

arxiv情報

著者 Alina Petukhova,Joao P. Matos-Carvalho,Nuno Fachada
発行日 2024-03-22 11:08:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク