Detecting Idiomatic Multiword Expressions in Clinical Terminology using Definition-Based Representation Learning

要約

本論文は、臨床用語における慣用的および半慣用的な多言語表現(MWE)を検出するための定義ベースの意味モデルの可能性に光を当てている。本研究では、UMLSオントロジーで定義された生物医学的なエンティティに焦点を当て、これらのエンティティの翻訳作業の優先順位付けに役立てることを目的としている。特に、MWEの意味表現とその構成要素の表現の加重平均との間の類似度に基づいて、生物医学的MWEの慣用性をスコアリングするための効果的なツールを開発する。我々は、BioLORDと呼ばれる、エンティティ名とその定義に対して類似した表現を生成するように訓練されたバイオメディカル言語モデルを用いてこれを実現する。この定義に基づくアプローチの重要性は、BioLORDモデルをTransformerに基づく他の2つの最先端のバイオメディカル言語モデルと比較することで強調される:SapBERTとCODERです。その結果、BioLORDモデルは、他のモデルでは再現されない、慣用的なMWEを識別する強力な能力を持っていることが示されました。このコーパスによらない熟語の推定は、オントロジー翻訳者がより困難なMWEに焦点を当てるのに役立つ。

要約(オリジナル)

This paper shines a light on the potential of definition-based semantic models for detecting idiomatic and semi-idiomatic multiword expressions (MWEs) in clinical terminology. Our study focuses on biomedical entities defined in the UMLS ontology and aims to help prioritize the translation efforts of these entities. In particular, we develop an effective tool for scoring the idiomaticity of biomedical MWEs based on the degree of similarity between the semantic representations of those MWEs and a weighted average of the representation of their constituents. We achieve this using a biomedical language model trained to produce similar representations for entity names and their definitions, called BioLORD. The importance of this definition-based approach is highlighted by comparing the BioLORD model to two other state-of-the-art biomedical language models based on Transformer: SapBERT and CODER. Our results show that the BioLORD model has a strong ability to identify idiomatic MWEs, not replicated in other models. Our corpus-free idiomaticity estimation helps ontology translators to focus on more challenging MWEs.

arxiv情報

著者 François Remy,Alfiya Khabibullina,Thomas Demeester
発行日 2023-05-11 13:42:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク