Large Language Models Enable Few-Shot Clustering

要約

従来の教師なしクラスタリングとは異なり、半教師ありクラスタリングでは、ユーザーが意味のある構造をデータに提供できるため、クラスタリング アルゴリズムがユーザーの意図に一致するのに役立ちます。
半教師ありクラスタリングへの既存のアプローチでは、クラスタを改善するために専門家からの大量のフィードバックが必要です。
この論文では、大規模な言語モデルが専門家のガイダンスを強化して、クエリ効率の良い少数ショットの半教師ありテキスト クラスタリングを可能にすることができるかどうかを尋ねます。
LLM がクラスタリングの改善に驚くほど効果的であることを示します。
LLM をクラスタリングに組み込むことができる 3 つの段階、つまり、クラスタリング前 (入力特徴の改善)、クラスタリング中 (クラスタラーに制約を提供することによる)、およびクラスタリング後 (LLM の事後補正の使用) を検討します。
最初の 2 つの段階で LLM を組み込むと、日常的にクラスターの品質が大幅に向上し、LLM を使用すると、ユーザーがコストと精度の間でトレードオフを行って目的のクラスターを作成できることがわかりました。
私たちはコードと LLM プロンプトを公開し、一般の人が使用できるようにします。

要約(オリジナル)

Unlike traditional unsupervised clustering, semi-supervised clustering allows users to provide meaningful structure to the data, which helps the clustering algorithm to match the user’s intent. Existing approaches to semi-supervised clustering require a significant amount of feedback from an expert to improve the clusters. In this paper, we ask whether a large language model can amplify an expert’s guidance to enable query-efficient, few-shot semi-supervised text clustering. We show that LLMs are surprisingly effective at improving clustering. We explore three stages where LLMs can be incorporated into clustering: before clustering (improving input features), during clustering (by providing constraints to the clusterer), and after clustering (using LLMs post-correction). We find incorporating LLMs in the first two stages can routinely provide significant improvements in cluster quality, and that LLMs enable a user to make trade-offs between cost and accuracy to produce desired clusters. We release our code and LLM prompts for the public to use.

arxiv情報

著者 Vijay Viswanathan,Kiril Gashteovski,Carolin Lawrence,Tongshuang Wu,Graham Neubig
発行日 2023-07-02 09:17:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク