Algorithms for automatic intents extraction and utterances classification for goal-oriented dialogue systems


JSON 形式のダイアログ データ セットを前処理する方法について説明します。
BERTopic と潜在ディリクレ割り当てに基づいてユーザーの意図を抽出する 2 つの方法を比較します。
ロジスティック回帰モデルと BERT 変換モデルに基づいて、目標指向対話システムのユーザーの発言を分類するために実装された 2 つのアルゴリズムの比較が行われました。
bert-base-uncased モデルを使用した BERT 変換アプローチは、他の方法と比較して、精度 (0.80)、F1 スコア (0.78)、およびマシューズ相関係数 (0.74) の 3 つの指標で良好な結果を示しました。


Modern machine learning techniques in the natural language processing domain can be used to automatically generate scripts for goal-oriented dialogue systems. The current article presents a general framework for studying the automatic generation of scripts for goal-oriented dialogue systems. A method for preprocessing dialog data sets in JSON format is described. A comparison is made of two methods for extracting user intent based on BERTopic and latent Dirichlet allocation. A comparison has been made of two implemented algorithms for classifying statements of users of a goal-oriented dialogue system based on logistic regression and BERT transformer models. The BERT transformer approach using the bert-base-uncased model showed better results for the three metrics Precision (0.80), F1-score (0.78) and Matthews correlation coefficient (0.74) in comparison with other methods.


著者 Leonid Legashev,Alexander Shukhman,Vadim Badikov
発行日 2024-04-29 15:53:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI パーマリンク