A Clustering Framework for Unsupervised and Semi-supervised New Intent Discovery


この問題に取り組むために、私たちは、教師なしおよび半教師ありの新しいインテント発見のための新しいクラスタリング フレームワーク USNID を提案します。これには 3 つの主要なテクノロジーがあります。
2 番目に、クラスター割り当ての不一致の問題に対処し、表現学習のための高品質の自己教師ありターゲットを提供するために、重心ガイド付きクラスタリング メカニズムを設計します。
3 番目に、教師なしまたは半教師ありデータの高レベルのセマンティクスをキャプチャし、クラスター レベルとインスタンス レベルの両方の目標を最適化することで、きめの細かいインテントごとのクラスターを検出します。
USNID は、いくつかのベンチマーク インテント データセットで非常に優れたパフォーマンスを発揮し、教師なしおよび半教師ありの新しいインテント検出で最先端の結果を達成し、さまざまなクラスター数で堅牢なパフォーマンスを実証しました。


New intent discovery is of great value to natural language processing, allowing for a better understanding of user needs and providing friendly services. However, most existing methods struggle to capture the complicated semantics of discrete text representations when limited or no prior knowledge of labeled data is available. To tackle this problem, we propose a novel clustering framework, USNID, for unsupervised and semi-supervised new intent discovery, which has three key technologies. First, it fully utilizes unsupervised or semi-supervised data to mine shallow semantic similarity relations and provide well-initialized representations for clustering. Second, it designs a centroid-guided clustering mechanism to address the issue of cluster allocation inconsistency and provide high-quality self-supervised targets for representation learning. Third, it captures high-level semantics in unsupervised or semi-supervised data to discover fine-grained intent-wise clusters by optimizing both cluster-level and instance-level objectives. We also propose an effective method for estimating the cluster number in open-world scenarios without knowing the number of new intents beforehand. USNID performs exceptionally well on several benchmark intent datasets, achieving new state-of-the-art results in unsupervised and semi-supervised new intent discovery and demonstrating robust performance with different cluster numbers.


著者 Hanlei Zhang,Hua Xu,Xin Wang,Fei Long,Kai Gao
発行日 2023-12-13 01:39:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク