k-LLMmeans: Scalable, Stable, and Interpretable Text Clustering via LLM-based Centroids

要約

K-Llmmeansを紹介します。これは、LLMで生成された要約をクラスター重心として活用するテキストクラスタリング用のK-Meansアルゴリズムの新しい変更を紹介し、純粋に数値的な平均で見逃されたセマンティックなニュアンスをキャプチャします。
この設計により、セマンティックな解釈可能性を高め、最新のLLMベースのクラスタリングに典型的なスケーラビリティと不安定性の問題を回避しながら、K-meansのコア最適化特性を保持します。
既存の方法とは異なり、当社のアプローチは、データセットサイズのLLM使用量を増加させず、透明な中間出力を生成します。
さらに、ストリーミングテキストの効率的でリアルタイムのクラスタリングのために、ミニバッチバリアントで拡張します。
複数のデータセット、埋め込み、およびLLMにわたる広範な実験は、K-llmmeansが一貫してK-Meansやその他の従来のベースラインを上回り、LLMコールのほんの一部を使用して、最先端のLLMベースのクラスタリングに匹敵する結果を達成することを示しています。
最後に、シーケンシャルテキストストリームに関するケーススタディを提示し、stackexchangeから構築された新しいベンチマークデータセットを導入して、テキストストリームクラスタリング方法を評価します。

要約(オリジナル)

We introduce k-LLMmeans, a novel modification of the k-means algorithm for text clustering that leverages LLM-generated summaries as cluster centroids, capturing semantic nuances often missed by purely numerical averages. This design preserves the core optimization properties of k-means while enhancing semantic interpretability and avoiding the scalability and instability issues typical of modern LLM-based clustering. Unlike existing methods, our approach does not increase LLM usage with dataset size and produces transparent intermediate outputs. We further extend it with a mini-batch variant for efficient, real-time clustering of streaming text. Extensive experiments across multiple datasets, embeddings, and LLMs show that k-LLMmeans consistently outperforms k-means and other traditional baselines and achieves results comparable to state-of-the-art LLM-based clustering, with a fraction of the LLM calls. Finally, we present a case study on sequential text streams and introduce a new benchmark dataset constructed from StackExchange to evaluate text-stream clustering methods.

arxiv情報

著者 Jairo Diaz-Rodriguez
発行日 2025-05-09 15:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク