A Clustering Framework for Unsupervised and Semi-supervised New Intent Discovery

要約

新しいインテントの発見は自然言語処理にとって非常に価値があり、ユーザーのニーズをより深く理解し、フレンドリーなサービスを提供できるようになります。
しかし、ほとんどの既存の方法では、ラベル付きデータに関する事前知識が限られているか、まったくない場合、離散テキスト表現の複雑なセマンティクスを捕捉するのが困難です。
この問題に取り組むために、私たちは、教師なしおよび半教師ありの新しいインテント発見のための新しいクラスタリング フレームワーク USNID を提案します。これには 3 つの主要なテクノロジーがあります。
まず、教師なしまたは半教師ありのデータを十分に利用して、浅い意味論的類似関係をマイニングし、クラスタリング用に適切に初期化された表現を提供します。
2 番目に、クラスター割り当ての不一致の問題に対処し、表現学習のための高品質の自己教師ありターゲットを提供するために、重心ガイド付きクラスタリング メカニズムを設計します。
3 番目に、教師なしまたは半教師ありデータの高レベルのセマンティクスをキャプチャし、クラスター レベルとインスタンス レベルの両方の目標を最適化することで、きめの細かいインテントごとのクラスターを検出します。
また、新しいインテントの数を事前に知ることなく、オープンワールドのシナリオでクラスター数を推定する効果的な方法も提案します。
USNID は、いくつかのベンチマーク インテント データセットで非常に優れたパフォーマンスを発揮し、教師なしおよび半教師ありの新しいインテント検出で最先端の結果を達成し、さまざまなクラスター数で堅牢なパフォーマンスを実証しました。

要約(オリジナル)

New intent discovery is of great value to natural language processing, allowing for a better understanding of user needs and providing friendly services. However, most existing methods struggle to capture the complicated semantics of discrete text representations when limited or no prior knowledge of labeled data is available. To tackle this problem, we propose a novel clustering framework, USNID, for unsupervised and semi-supervised new intent discovery, which has three key technologies. First, it fully utilizes unsupervised or semi-supervised data to mine shallow semantic similarity relations and provide well-initialized representations for clustering. Second, it designs a centroid-guided clustering mechanism to address the issue of cluster allocation inconsistency and provide high-quality self-supervised targets for representation learning. Third, it captures high-level semantics in unsupervised or semi-supervised data to discover fine-grained intent-wise clusters by optimizing both cluster-level and instance-level objectives. We also propose an effective method for estimating the cluster number in open-world scenarios without knowing the number of new intents beforehand. USNID performs exceptionally well on several benchmark intent datasets, achieving new state-of-the-art results in unsupervised and semi-supervised new intent discovery and demonstrating robust performance with different cluster numbers.

arxiv情報

著者 Hanlei Zhang,Hua Xu,Xin Wang,Fei Long,Kai Gao
発行日 2023-12-13 01:39:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク