Biomedical Language Models are Robust to Sub-optimal Tokenization

要約

一般的な英語とは対照的に、生物医学用語の多くの概念は、正確かつ簡潔であることを目的として、生物医学専門家によって最近の歴史の中で考案されてきました。
これは多くの場合、意味のある生物医学的形態素を連結して新しい意味単位を作成することによって実現されます。
それにもかかわらず、最新の生物医学言語モデル (LM) のほとんどは、生物医学言語の凝集性を明示的に利用することなく、大規模な生物医学コーパス統計から派生した標準的なドメイン固有のトークナイザーを使用して事前トレーニングされています。
この研究では、標準的なオープンドメインおよび生物医学トークナイザーでは、生物医学用語を意味のある構成要素に分割することがほとんどできないことが初めてわかりました。
したがって、生物医学用語をより正確にセグメント化するトークナイザーを使用することで、生物医学 LM が下流の生物医学 NLP タスク、特に固有表現認識 (NER) やエンティティ リンクなどの生物医学用語に直接関係するタスクのパフォーマンスを向上できるのではないかと仮説を立てます。
驚くべきことに、より正確な生物医学トークナイザーを使用して生物医学 LM を事前トレーニングしても、マスクされた言語モデリング予測 (MLM) の精度や NER などのいくつかの固有および外部の尺度で測定される言語モデルのエンティティ表現の品質が向上しないことがわかりました。
エンティティリンクのパフォーマンス。
これらの定量的な発見は、エンティティ表現の品質をより直接的に調査するケーススタディと合わせて、生物医学の事前トレーニング プロセスが次善のトークン化のインスタンスに対して非常に堅牢であることを示唆しています。

要約(オリジナル)

As opposed to general English, many concepts in biomedical terminology have been designed in recent history by biomedical professionals with the goal of being precise and concise. This is often achieved by concatenating meaningful biomedical morphemes to create new semantic units. Nevertheless, most modern biomedical language models (LMs) are pre-trained using standard domain-specific tokenizers derived from large scale biomedical corpus statistics without explicitly leveraging the agglutinating nature of biomedical language. In this work, we first find that standard open-domain and biomedical tokenizers are largely unable to segment biomedical terms into meaningful components. Therefore, we hypothesize that using a tokenizer which segments biomedical terminology more accurately would enable biomedical LMs to improve their performance on downstream biomedical NLP tasks, especially ones which involve biomedical terms directly such as named entity recognition (NER) and entity linking. Surprisingly, we find that pre-training a biomedical LM using a more accurate biomedical tokenizer does not improve the entity representation quality of a language model as measured by several intrinsic and extrinsic measures such as masked language modeling prediction (MLM) accuracy as well as NER and entity linking performance. These quantitative findings, along with a case study which explores entity representation quality more directly, suggest that the biomedical pre-training process is quite robust to instances of sub-optimal tokenization.

arxiv情報

著者 Bernal Jiménez Gutiérrez,Huan Sun,Yu Su
発行日 2023-06-30 13:35:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク