要約
意図検出は、タスク指向対話システムにおける自然言語理解 (NLU) ユニットのタスクの 1 つです。
範囲外 (OOS) およびドメイン外 (OOD) の入力により、これらのシステムに問題が発生する可能性があります。
一方、タスク指向の対話システムで意図検出のモデルをトレーニングするには、ラベル付きデータセットが必要です。
ラベル付きデータセットの作成には時間がかかり、人的資源が必要です。
この記事の目的は、前述の問題に対処することです。
OOD/OOS 入力を識別するタスクは、OOD/OOS インテント検出と呼ばれます。
また、新しいインテントの発見と OOD 入力の疑似ラベル付けは、Intent Discovery によってよく知られています。
OOD インテント検出部分では、Variational Autoencoder を使用して、入力データの分布とは関係なく、既知のインテントと未知のインテントを区別します。
その後、教師なしクラスタリング手法を使用して、OOD/OOS 入力の基礎となるさまざまな未知の意図を発見します。
また、OOD/OOS 表現に非線形次元削減を適用して、表現間の距離をクラスタリングにとってより意味のあるものにします。
私たちの結果は、OOD/OOS Intent Detection と Intent Discovery の両方で提案されたモデルが優れた結果を達成し、英語とペルシャ語のベースラインを通過することを示しています。
要約(オリジナル)
Intent Detection is one of the tasks of the Natural Language Understanding (NLU) unit in task-oriented dialogue systems. Out of Scope (OOS) and Out of Domain (OOD) inputs may run these systems into a problem. On the other side, a labeled dataset is needed to train a model for Intent Detection in task-oriented dialogue systems. The creation of a labeled dataset is time-consuming and needs human resources. The purpose of this article is to address mentioned problems. The task of identifying OOD/OOS inputs is named OOD/OOS Intent Detection. Also, discovering new intents and pseudo-labeling of OOD inputs is well known by Intent Discovery. In OOD intent detection part, we make use of a Variational Autoencoder to distinguish between known and unknown intents independent of input data distribution. After that, an unsupervised clustering method is used to discover different unknown intents underlying OOD/OOS inputs. We also apply a non-linear dimensionality reduction on OOD/OOS representations to make distances between representations more meaning full for clustering. Our results show that the proposed model for both OOD/OOS Intent Detection and Intent Discovery achieves great results and passes baselines in English and Persian languages.
arxiv情報
著者 | Masoud Akbari,Ali Mohades,M. Hassan Shirali-Shahreza |
発行日 | 2023-03-07 18:49:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google