PerSHOP — A Persian dataset for shopping dialogue systems modeling

要約

現在、対話システムは産業や研究の多くの分野で使用されています。
Apple Siri、Google アシスタント、IBM Watson など、これらのシステムの成功例があります。
タスク指向対話システムはそのカテゴリの 1 つであり、特定のタスクで使用されます。
航空券の予約やレストランの予約などのタスクを実行できます。
ショッピングは、これらのシステムで最も人気のある分野の 1 つです。
ボットは人間の販売員に代わって、会話によって顧客と対話します。
これらのシステムの舞台裏でモデルをトレーニングするには、注釈付きデータが必要です。
この論文では、クラウドソーシングを通じてペルシア語の対話のデータセットを開発しました。
モデルをトレーニングするために、これらのダイアログに注釈を付けました。
このデータセットには、15 の異なるドメインでの約 22,000 の発話と 1,061 の対話が含まれています。
これは、この分野で最大のペルシア語データセットであり、将来の研究者が使用できるように無償で提供されています。
また、自然言語理解 (NLU) タスク用のベースライン モデルをいくつか提案しました。
これらのモデルは、NLU に対して、意図の分類とエンティティの抽出という 2 つのタスクを実行します。
意図分類で得られた F-1 スコア メトリックは約 91%、エンティティ抽出で約 93% であり、これは将来の研究のベースラインとなる可能性があります。

要約(オリジナル)

Nowadays, dialogue systems are used in many fields of industry and research. There are successful instances of these systems, such as Apple Siri, Google Assistant, and IBM Watson. Task-oriented dialogue system is a category of these, that are used in specific tasks. They can perform tasks such as booking plane tickets or making restaurant reservations. Shopping is one of the most popular areas on these systems. The bot replaces the human salesperson and interacts with the customers by speaking. To train the models behind the scenes of these systems, annotated data is needed. In this paper, we developed a dataset of dialogues in the Persian language through crowd-sourcing. We annotated these dialogues to train a model. This dataset contains nearly 22k utterances in 15 different domains and 1061 dialogues. This is the largest Persian dataset in this field, which is provided freely so that future researchers can use it. Also, we proposed some baseline models for natural language understanding (NLU) tasks. These models perform two tasks for NLU: intent classification and entity extraction. The F-1 score metric obtained for intent classification is around 91% and for entity extraction is around 93%, which can be a baseline for future research.

arxiv情報

著者 Keyvan Mahmoudi,Heshaam Faili
発行日 2024-01-01 16:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク