Comparing Variation in Tokenizer Outputs Using a Series of Problematic and Challenging Biomedical Sentences

要約

背景と目的: 生物医学テキスト データが研究に利用できるようになってきています。
トークン化は、多くの生物医学テキスト マイニング パイプラインの最初のステップです。
トークン化は、入力された生体医学文 (デジタル文字シーケンスとして表される) を解析して、焦点を絞った意味論的/構文的な意味を伝える単語/トークン記号の個別のセットに解析するプロセスです。
この研究の目的は、一連の困難な生物医学文に適用された場合のトークナイザー出力の変動を調査することです。
方法: Diaz [2015] は、トークナイザーのパフォーマンスを比較するための 24 の挑戦的な生物医学文の例を紹介します。
この研究では、各生物医学文例に適用された 8 つのトークナイザーの出力の変化を記述的に調査します。
この調査で比較されたトークナイザーは、NLTK ホワイト スペース トークナイザー、NLTK Penn Tree Bank トークナイザー、Spacy および SciSpacy トークナイザー、Stanza/Stanza-Craft トークナイザー、UDPipe トークナイザー、および R トークナイザーです。
結果: 多くの例で、トークナイザーは同様に効果的に機能しました。
ただし、特定の例では、返される出力に有意な変動がありました。
多くの場合、空白トークナイザーは他のトークナイザーとは異なる動作をします。
ルールベースのシステム (パターン マッチングや正規表現など) を実装するトークナイザーと、トークン分類用のニューラル アーキテクチャを実装するトークナイザーのパフォーマンスの類似性が観察されました。
多くの場合、出力に最大の変化をもたらす挑戦的なトークンは、実質的で焦点を絞った生物医学的/臨床的意味を伝える単語です (例: X 線、IL-10、TCR/CD3、CD4+ CD8+、および (Ca2+) 調節)。
結論: Python と R の最先端のオープンソース トークナイザーを一連の困難な生物医学の例文に適用したところ、返された出力に微妙な変動が観察されました。

要約(オリジナル)

Background & Objective: Biomedical text data are increasingly available for research. Tokenization is an initial step in many biomedical text mining pipelines. Tokenization is the process of parsing an input biomedical sentence (represented as a digital character sequence) into a discrete set of word/token symbols, which convey focused semantic/syntactic meaning. The objective of this study is to explore variation in tokenizer outputs when applied across a series of challenging biomedical sentences. Method: Diaz [2015] introduce 24 challenging example biomedical sentences for comparing tokenizer performance. In this study, we descriptively explore variation in outputs of eight tokenizers applied to each example biomedical sentence. The tokenizers compared in this study are the NLTK white space tokenizer, the NLTK Penn Tree Bank tokenizer, Spacy and SciSpacy tokenizers, Stanza/Stanza-Craft tokenizers, the UDPipe tokenizer, and R-tokenizers. Results: For many examples, tokenizers performed similarly effectively; however, for certain examples, there were meaningful variation in returned outputs. The white space tokenizer often performed differently than other tokenizers. We observed performance similarities for tokenizers implementing rule-based systems (e.g. pattern matching and regular expressions) and tokenizers implementing neural architectures for token classification. Oftentimes, the challenging tokens resulting in the greatest variation in outputs, are those words which convey substantive and focused biomedical/clinical meaning (e.g. x-ray, IL-10, TCR/CD3, CD4+ CD8+, and (Ca2+)-regulated). Conclusion: When state-of-the-art, open-source tokenizers from Python and R were applied to a series of challenging biomedical example sentences, we observed subtle variation in the returned outputs.

arxiv情報

著者 Christopher Meaney,Therese A Stukel,Peter C Austin,Michael Escobar
発行日 2023-05-15 16:46:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク