Infusing clinical knowledge into tokenisers for language models

要約

この研究では、臨床テキスト処理のための新しい知識強化型トークン化メカニズムである K-Tokeniser を導入します。
技術的には、初期化段階で、K-Tokeniser は、統一医療言語システムなどのドメイン オントロジーまたはタスク関連コーパスのトレーニング データから、ドメイン概念 (薬物や疾患など) のセマンティック タイプに基づいてトークンのグローバル表現を設定します。
トレーニングまたは推論の段階では、文レベルのローカライズされたコンテキストを利用して、セマンティックベースのトークン化を実現するための最適なグローバル トークン表現が選択されます。
新しいトークナイザーを使用した事前トレーニングを回避するために、新しいトークンの表現を生成する埋め込み初期化アプローチが提案されています。
3 つのトランスフォーマーベースの言語モデルを使用して、臨床概念と関係の抽出、自動臨床コーディング、臨床表現型の識別、
および臨床研究論文の分類。
全体として、私たちのモデルは、すべてのタスクにおいて同等のモデルに比べて一貫した改善を示しています。
特に、自動臨床コーディング タスクでは大幅な改善が見られ、Micro $F_1$ スコアが 13\% 増加しました。
さらに、K-Tokeniser は、言語モデルのより迅速な収束を促進する上で重要な能力も示しています。
具体的には、K-Tokeniser を使用すると、言語モデルは、概念抽出タスクのすべてのトレーニング データを使用して、ベースライン トークナイザーの最高のパフォーマンスを達成するためにトレーニング データの 50\% のみを必要とし、自動タスクではデータの 20\% 未満しか必要としません。
コーディングタスク。
これらすべての改善には事前トレーニング プロセスが不要であり、アプローチが一般化可能であることは言及する価値があります。

要約(オリジナル)

This study introduces a novel knowledge enhanced tokenisation mechanism, K-Tokeniser, for clinical text processing. Technically, at initialisation stage, K-Tokeniser populates global representations of tokens based on semantic types of domain concepts (such as drugs or diseases) from either a domain ontology like Unified Medical Language System or the training data of the task related corpus. At training or inference stage, sentence level localised context will be utilised for choosing the optimal global token representation to realise the semantic-based tokenisation. To avoid pretraining using the new tokeniser, an embedding initialisation approach is proposed to generate representations for new tokens. Using three transformer-based language models, a comprehensive set of experiments are conducted on four real-world datasets for evaluating K-Tokeniser in a wide range of clinical text analytics tasks including clinical concept and relation extraction, automated clinical coding, clinical phenotype identification, and clinical research article classification. Overall, our models demonstrate consistent improvements over their counterparts in all tasks. In particular, substantial improvements are observed in the automated clinical coding task with 13\% increase on Micro $F_1$ score. Furthermore, K-Tokeniser also shows significant capacities in facilitating quicker converge of language models. Specifically, using K-Tokeniser, the language models would only require 50\% of the training data to achieve the best performance of the baseline tokeniser using all training data in the concept extraction task and less than 20\% of the data for the automated coding task. It is worth mentioning that all these improvements require no pre-training process, making the approach generalisable.

arxiv情報

著者 Abul Hasan,Jinge Wu,Quang Ngoc Nguyen,Salomé Andres,Imane Guellil,Huayu Zhang,Arlene Casey,Beatrice Alex,Bruce Guthrie,Honghan Wu
発行日 2024-06-20 13:43:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク