要約
話された名前の名前のエンティティ認識(NER)は、スピーチから名前のエンティティを抽出し、それらを人、場所、組織などの種類に分類することを目的としています。
私たちの知る限り、当社のベトナムの実世界のデータセットは、18の異なるタイプを備えたエンティティタイプの数に関する世界最大のNERデータセットです。
さらに、さまざまな最先端の事前訓練モデルを使用してベースライン結果を提示します:エンコーダのみおよびシーケンスからシーケンス。
定量的および定性的エラー分析を実施します。
事前に訓練された多言語モデルは、一般に、参照テキストで単一言語モデルよりも優れていることがわかりました。
トランスクリプトを翻訳することにより、データセットは、ベトナム以外の言語の医療ドメインのテキストNERにも使用できます。
すべてのコード、データ、モデルは公開されています:https://github.com/leduckhai/multimed/tree/master/vietmed-ner。
要約(オリジナル)
Spoken Named Entity Recognition (NER) aims to extract named entities from speech and categorise them into types like person, location, organization, etc. In this work, we present VietMed-NER – the first spoken NER dataset in the medical domain. To our knowledge, our Vietnamese real-world dataset is the largest spoken NER dataset in the world regarding the number of entity types, featuring 18 distinct types. Furthermore, we present baseline results using various state-of-the-art pre-trained models: encoder-only and sequence-to-sequence; and conduct quantitative and qualitative error analysis. We found that pre-trained multilingual models generally outperform monolingual models on reference text and ASR output and encoders outperform sequence-to-sequence models in NER tasks. By translating the transcripts, the dataset can also be utilised for text NER in the medical domain in other languages than Vietnamese. All code, data and models are publicly available: https://github.com/leduckhai/MultiMed/tree/master/VietMed-NER.
arxiv情報
著者 | Khai Le-Duc,David Thulke,Hung-Phong Tran,Long Vo-Dang,Khai-Nguyen Nguyen,Truong-Son Hy,Ralf Schlüter |
発行日 | 2025-04-02 09:12:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google