要約
医療分野における多言語音声翻訳(ST)は、言語の壁を越えた効率的なコミュニケーションを可能にし、専門的な人材不足を緩和し、特にパンデミック時の診断と治療の改善を促進することで、患者ケアを向上させる。本研究では、医療分野の大規模STデータセットであるMultiMed-STを公開することで、医療分野のSTに関する初めての体系的研究を行う:このデータセットは、ベトナム語、英語、ドイツ語、フランス語、繁体字中国語、簡体字中国語の5言語におけるあらゆる翻訳方向にまたがるものであり、モデルも含まれている。29万サンプルを有する本データセットは、医療分野の機械翻訳(MT)データセットとしては最大であり、多言語対多言語のSTデータセットとしては全領域の中で最大である。第二に、経験的ベースライン、日英・多言語比較研究、エンドツーエンド対カスケード比較研究、タスク固有対マルチタスクシーケンス対シーケンス(seq2seq)比較研究、コードスイッチ分析、定量的・定性的エラー分析など、これまでのST研究で最も広範な分析研究を紹介する。すべてのコード、データ、モデルはオンラインで入手可能。https://github.com/leduckhai/MultiMed-ST。
要約(オリジナル)
Multilingual speech translation (ST) in the medical domain enhances patient care by enabling efficient communication across language barriers, alleviating specialized workforce shortages, and facilitating improved diagnosis and treatment, particularly during pandemics. In this work, we present the first systematic study on medical ST, to our best knowledge, by releasing MultiMed-ST, a large-scale ST dataset for the medical domain, spanning all translation directions in five languages: Vietnamese, English, German, French, Traditional Chinese and Simplified Chinese, together with the models. With 290,000 samples, our dataset is the largest medical machine translation (MT) dataset and the largest many-to-many multilingual ST among all domains. Secondly, we present the most extensive analysis study in ST research to date, including: empirical baselines, bilingual-multilingual comparative study, end-to-end vs. cascaded comparative study, task-specific vs. multi-task sequence-to-sequence (seq2seq) comparative study, code-switch analysis, and quantitative-qualitative error analysis. All code, data, and models are available online: https://github.com/leduckhai/MultiMed-ST.
arxiv情報
著者 | Khai Le-Duc,Tuyen Tran,Bach Phan Tat,Nguyen Kim Hai Bui,Quan Dang,Hung-Phong Tran,Thanh-Thuy Nguyen,Ly Nguyen,Tuan-Minh Phan,Thi Thu Phuong Tran,Chris Ngo,Nguyen X. Khanh,Thanh Nguyen-Tang |
発行日 | 2025-04-04 15:49:17+00:00 |
arxivサイト | arxiv_id(pdf) |