ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue System Development


タイトル: ViMQ: ヘルスケアダイアログシステム開発のためのベトナム語医療問診データセット

– 既存の医療テキストデータセットは、自然言語生成タスクをサポートする質問と回答のペアの形式をとりますが、医療用語の複合アノテーションが欠けています。
– この研究では、医療用語とサブタスク(意図分類と固有表現認識)の文レベルおよびエンティティレベルのアノテーションを持つベトナム語の医療問診データセットを公開しています。
– これらのサブタスクに対応するタグセットは、医療分野におけるものであり、患者からの問い合わせを正確に理解する医療対話ボットの開発を容易にします。
– 2つのサブタスクのベースラインモデルをトレーニングし、スパンノイズモデリングを用いた自己教師ありトレーニング戦略を提案し、性能を大幅に改善しました。
– データセットとコードはで公開されます。


Existing medical text datasets usually take the form of ques- tion and answer pairs that support the task of natural language gener- ation, but lacking the composite annotations of the medical terms. In this study, we publish a Vietnamese dataset of medical questions from patients with sentence-level and entity-level annotations for the Intent Classification and Named Entity Recognition tasks. The tag sets for two tasks are in medical domain and can facilitate the development of task- oriented healthcare chatbots with better comprehension of queries from patients. We train baseline models for the two tasks and propose a simple self-supervised training strategy with span-noise modelling that substan- tially improves the performance. Dataset and code will be published at


著者 Ta Duc Huy,Nguyen Anh Tu,Tran Hoang Vu,Nguyen Phuc Minh,Nguyen Phan,Trung H. Bui,Steven Q. H. Truong
発行日 2023-04-27 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL パーマリンク