要約
テキストクラスタリングは、言語機能に基づいて、テキストドキュメントのコレクションを個別のクラスターに自動的に分割することを目的としています。
文献では、このタスクは通常、事前に訓練されたエンコーダーからのテキストの埋め込みまたはオラクルからのペアワイズの類似性、例えば大きなMLモデルのグラフクラスタリング問題に基づいてメトリッククラスタリングとして囲まれています。
最近、大規模な言語モデル(LLM)は、コンテキスト化されたテキストの埋め込みと非常に正確な類似性スコアを提供することにより、この分野に大きな進歩をもたらしますが、モデルへの多数のAPIベースのクエリまたは推論呼び出しに起因する実質的な計算および/または財務間のオーバーヘッドに対処するという壮大な課題を提示します。
これに応じて、このペーパーでは、LLMSからの正確なテキストクラスタリングのためにLLMSからのフィードバックを利用して、LLMSへのクエリの予算内で正確なテキストクラスタリングをタップする費用対効果の高いフレームワークであるTECLを提案します。
ボンネットの下で、TECLはEdgellmまたはTriAnglellmを採用して、テキストペアのマストリンク/リンク制約を作成し、さらにクラスターを生成するための加重制約クラスタリングアプローチに入力する監督信号などの制約をさらに活用します。
特に、Edgellm(Resp。trianglellm)により、よく考えられた貪欲なアルゴリズムと慎重に作成されたプロンプト技術を介したペアワイズ制約の正確な抽出を介して、LLMを照会するための有益なテキストペア(Resp。triplets)の識別を可能にします。
複数のベンチマークデータセットでの実験は、TECLがLLMSの同じクエリコストで監視されていないテキストクラスタリングの既存のソリューションを一貫してかなり上回ることを示しています。
要約(オリジナル)
Text clustering aims to automatically partition a collection of text documents into distinct clusters based on linguistic features. In the literature, this task is usually framed as metric clustering based on text embeddings from pre-trained encoders or a graph clustering problem upon pairwise similarities from an oracle, e.g., a large ML model. Recently, large language models (LLMs) bring significant advancement in this field by offering contextualized text embeddings and highly accurate similarity scores, but meanwhile, present grand challenges to cope with substantial computational and/or financial overhead caused by numerous API-based queries or inference calls to the models. In response, this paper proposes TECL, a cost-effective framework that taps into the feedback from LLMs for accurate text clustering within a limited budget of queries to LLMs. Under the hood, TECL adopts our EdgeLLM or TriangleLLM to construct must-link/cannot-link constraints for text pairs, and further leverages such constraints as supervision signals input to our weighted constrained clustering approach to generate clusters. Particularly, EdgeLLM (resp. TriangleLLM) enables the identification of informative text pairs (resp. triplets) for querying LLMs via well-thought-out greedy algorithms and accurate extraction of pairwise constraints through carefully-crafted prompting techniques. Our experiments on multiple benchmark datasets exhibit that TECL consistently and considerably outperforms existing solutions in unsupervised text clustering under the same query cost for LLMs.
arxiv情報
著者 | Hongtao Wang,Taiyan Zhang,Renchi Yang,Jianliang Xu |
発行日 | 2025-04-22 06:57:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google