要約
ドメイン外 (OOD) インテント検出は、実際の対話システムにとって不可欠であり、通常、複数ターンの対話コンテキストを考慮する必要があります。
ただし、これまでの OOD 意図検出アプローチのほとんどは、単一の対話ターンに限定されていました。
このペーパーでは、OOD インテント検出タスクにおけるマルチターン コンテキストをモデル化する、コンテキスト認識型 OOD インテント検出 (Caro) フレームワークを紹介します。
具体的には、情報ボトルネック原則に従って、複数ターンの対話コンテキストから堅牢な表現を抽出します。
入力サンプルごとに 2 つの異なるビューが構築され、マルチビュー情報のボトルネック損失を使用して、意図の検出に関係のない余分な情報が削除されます。
さらに、Caro でのラベルなしデータの活用も検討します。
これらのラベルなしデータから OOD サンプルをマイニングするために 2 段階のトレーニング プロセスが導入され、これらの OOD サンプルはブートストラップ アプローチで結果のモデルをトレーニングするために使用されます。
包括的な実験により、Caro が以前の最良の方法と比較して F1-OOD スコアを $29\%$ 以上改善することにより、マルチターン OOD 検出タスクで最先端のパフォーマンスを確立していることが実証されました。
要約(オリジナル)
Out-of-Domain (OOD) intent detection is vital for practical dialogue systems, and it usually requires considering multi-turn dialogue contexts. However, most previous OOD intent detection approaches are limited to single dialogue turns. In this paper, we introduce a context-aware OOD intent detection (Caro) framework to model multi-turn contexts in OOD intent detection tasks. Specifically, we follow the information bottleneck principle to extract robust representations from multi-turn dialogue contexts. Two different views are constructed for each input sample and the superfluous information not related to intent detection is removed using a multi-view information bottleneck loss. Moreover, we also explore utilizing unlabeled data in Caro. A two-stage training process is introduced to mine OOD samples from these unlabeled data, and these OOD samples are used to train the resulting model with a bootstrapping approach. Comprehensive experiments demonstrate that Caro establishes state-of-the-art performances on multi-turn OOD detection tasks by improving the F1-OOD score of over $29\%$ compared to the previous best method.
arxiv情報
著者 | Hao Lang,Yinhe Zheng,Binyuan Hui,Fei Huang,Yongbin Li |
発行日 | 2024-02-23 09:13:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google