Vocabulary Transfer for Medical Texts

要約

特定の NLP サブドメイン内での作業には、主に永続的なデータ不足が原因で、重大な課題が生じます。
プライバシーへの厳しい懸念とデータへのアクセスの制限が、この不足を引き起こすことがよくあります。
さらに、医療分野では高い精度が要求されるため、モデルのパフォーマンスがわずかに改善されただけでも大きな影響を与える可能性があります。
この研究では、生物医学 NLP タスクにおけるモデルのパフォーマンスを向上させる語彙伝達の可能性を調査します。
具体的には、対象語彙を拡張して領域固有の生物医学用語を組み込む手法である語彙拡張に焦点を当てています。
私たちの調査結果は、語彙の拡張が下流モデルのパフォーマンスと推論時間の両方に目に見える改善をもたらすことを示しています。

要約(オリジナル)

Working within specific NLP subdomains presents significant challenges, primarily due to a persistent deficit of data. Stringent privacy concerns and limited data accessibility often drive this shortage. Additionally, the medical domain demands high accuracy, where even marginal improvements in model performance can have profound impacts. In this study, we investigate the potential of vocabulary transfer to enhance model performance in biomedical NLP tasks. Specifically, we focus on vocabulary extension, a technique that involves expanding the target vocabulary to incorporate domain-specific biomedical terms. Our findings demonstrate that vocabulary extension, leads to measurable improvements in both downstream model performance and inference time.

arxiv情報

著者 Priyanka Singh,Vladislav D. Mosin,Ivan P. Yamshchikov
発行日 2024-10-09 16:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク