要約
タイトル:USNID:非監視および半監視の新しい意図探索のためのフレームワーク
要約:
– 新しい意図を探索することは、自然言語処理において利用価値が高く、ユーザーのニーズを理解し、友好的なサービスを提供することができる。
– 無監視データまたは半監視データをフル活用し、浅い意味の類似関係を探索し、クラスタリングのためによく初期化された表現を提供することができる、USNIDという新しいフレームワークを提案する。
– セントロイドガイドクラスタリングメカニズムを設計して、クラスタ配分の不一致の問題を解決し、表現学習のための高品質の自己教師ターゲットを提供する。
– クラスタレベルとインスタンスレベルの目的を最適化することにより、無監視または半監視データの高レベルの意味を捉え、細かい意図ごとのクラスタを発見する。
– USNIDは、新しい意図探索において新しい最高成果を達成し、異なるクラスタ数に対して堅牢な性能を示すために、いくつかの意図ベンチマークデータセットで非常に優れたパフォーマンスを発揮する。また、新しい意図の数を事前に知らなくても、オープンワールドのシナリオでクラスタ数を推定するための効果的な方法を提案する。
要約(オリジナル)
New intent discovery is of great value to natural language processing, allowing for a better understanding of user needs and providing friendly services. However, most existing methods struggle to capture the complicated semantics of discrete text representations when limited or no prior knowledge of labeled data is available. To tackle this problem, we propose a novel framework called USNID for unsupervised and semi-supervised new intent discovery, which has three key technologies. First, it takes full use of unsupervised or semi-supervised data to mine shallow semantic similarity relations and provide well-initialized representations for clustering. Second, it designs a centroid-guided clustering mechanism to address the issue of cluster allocation inconsistency and provide high-quality self-supervised targets for representation learning. Third, it captures high-level semantics in unsupervised or semi-supervised data to discover fine-grained intent-wise clusters by optimizing both cluster-level and instance-level objectives. We also propose an effective method for estimating the cluster number in open-world scenarios without knowing the number of new intents beforehand. USNID performs exceptionally well on several intent benchmark datasets, achieving new state-of-the-art results in unsupervised and semi-supervised new intent discovery and demonstrating robust performance with different cluster numbers.
arxiv情報
著者 | Hanlei Zhang,Hua Xu,Xin Wang,Fei Long,Kai Gao |
発行日 | 2023-04-16 05:30:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI