要約
テキスト クラスタリングは、手動によるラベル付けにコストがかかりすぎる現実のアプリケーションでも依然として価値があります。
類似したテキストをその表現に基づいてグループ化することで、情報の効率的な整理と分析が容易になります。
ただし、このアプローチを実装するには、ダウンストリーム データと高度な類似性メトリクス用に微調整されたエンベッダーが必要です。
この問題に対処するために、この研究では、大規模言語モデル (LLM) のコンテキスト内学習能力を効果的に活用する、テキスト クラスタリングの新しいフレームワークを紹介します。
エンベッダーを微調整する代わりに、LLM を介してテキスト クラスタリングを分類タスクに変換することを提案します。
まず、LLM に、特定のデータセットの潜在的なラベルを生成するように指示します。
次に、LLM によって生成された同様のラベルを統合した後、データセット内の各サンプルに最も適切なラベルを割り当てるように LLM に指示します。
私たちのフレームワークは、複雑な微調整やクラスタリング アルゴリズムを必要とせずに、埋め込みを使用する最先端のクラスタリング手法と同等またはそれ以上のパフォーマンスを達成することが実験的に証明されています。
私たちはコードを https://github.com/ECNU-Text-Computing/Text-Clustering-via-LLM で一般公開して利用できるようにしています。
要約(オリジナル)
Text clustering remains valuable in real-world applications where manual labeling is cost-prohibitive. It facilitates efficient organization and analysis of information by grouping similar texts based on their representations. However, implementing this approach necessitates fine-tuned embedders for downstream data and sophisticated similarity metrics. To address this issue, this study presents a novel framework for text clustering that effectively leverages the in-context learning capacity of Large Language Models (LLMs). Instead of fine-tuning embedders, we propose to transform the text clustering into a classification task via LLM. First, we prompt LLM to generate potential labels for a given dataset. Second, after integrating similar labels generated by the LLM, we prompt the LLM to assign the most appropriate label to each sample in the dataset. Our framework has been experimentally proven to achieve comparable or superior performance to state-of-the-art clustering methods that employ embeddings, without requiring complex fine-tuning or clustering algorithms. We make our code available to the public for utilization at https://github.com/ECNU-Text-Computing/Text-Clustering-via-LLM.
arxiv情報
著者 | Chen Huang,Guoxiu He |
発行日 | 2025-01-02 08:53:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google