要約
このホワイトペーパーでは、微調整せずに意図的なクラスタリングのための直感的でドメイン適応的な方法である大規模な言語モデル(Spill)を使用した選択とプールを提案します。
既存の埋め込みベースのクラスタリング方法は、新しいデータセットごとに結果を最適化するために、いくつかのラベル付き例または監視なしの微調整に依存しているため、複数のデータセットに一般化できません。
私たちの目標は、これらの既存の埋め込み剤を、それ以上微調整することなく、新しいドメインデータセットに対してより一般化できるようにすることです。
サンプリングおよびプーリング技術の有効性に関する理論的派生結果とシミュレーション結果に触発されて、クラスタリングタスクを小規模な選択問題と見なしています。
この問題の良い解決策は、クラスタリングパフォーマンスの向上に関連しています。
したがって、2段階のアプローチを提案します。まず、各発言(種子と呼ばれる)ごとに、既存の埋め込みを使用してその埋め込みを導き出します。
次に、距離メトリックを適用して、種子に近い候補者のプールを選択します。
エンバダーは新しいデータセットに最適化されていないため、第2段階では、LLMを使用して、シードと同じ意図を共有するこれらの候補者からの発話をさらに選択します。
最後に、これらの選択された候補者を種でプールして、種の洗練された埋め込みを導き出します。
私たちの方法は一般に、埋め込み剤を使用して直接パフォーマンスを発揮し、他の最先端の研究に匹敵する結果を達成することがわかりました。これは、はるかに大きなモデルを使用し、微調整を必要とし、その強度と効率を示しています。
我々の結果は、我々の方法により、既存の埋め込み機を追加の微調整なしでさらに改善し、新しいドメインデータセットにより適応性を高めることができることを示しています。
さらに、クラスタリングタスクを小規模な選択問題として表示すると、LLMを使用してユーザーの目標に応じてクラスタリングタスクをカスタマイズする可能性があります。
要約(オリジナル)
In this paper, we propose Selection and Pooling with Large Language Models (SPILL), an intuitive and domain-adaptive method for intent clustering without fine-tuning. Existing embeddings-based clustering methods rely on a few labeled examples or unsupervised fine-tuning to optimize results for each new dataset, which makes them less generalizable to multiple datasets. Our goal is to make these existing embedders more generalizable to new domain datasets without further fine-tuning. Inspired by our theoretical derivation and simulation results on the effectiveness of sampling and pooling techniques, we view the clustering task as a small-scale selection problem. A good solution to this problem is associated with better clustering performance. Accordingly, we propose a two-stage approach: First, for each utterance (referred to as the seed), we derive its embedding using an existing embedder. Then, we apply a distance metric to select a pool of candidates close to the seed. Because the embedder is not optimized for new datasets, in the second stage, we use an LLM to further select utterances from these candidates that share the same intent as the seed. Finally, we pool these selected candidates with the seed to derive a refined embedding for the seed. We found that our method generally outperforms directly using an embedder, and it achieves comparable results to other state-of-the-art studies, even those that use much larger models and require fine-tuning, showing its strength and efficiency. Our results indicate that our method enables existing embedders to be further improved without additional fine-tuning, making them more adaptable to new domain datasets. Additionally, viewing the clustering task as a small-scale selection problem gives the potential of using LLMs to customize clustering tasks according to the user’s goals.
arxiv情報
著者 | I-Fan Lin,Faegheh Hasibi,Suzan Verberne |
発行日 | 2025-03-19 15:48:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google