Biomedical Entity Linking with Triple-aware Pre-Training

要約

生物医学エンティティのリンクは、テキスト マイニングや質問応答などの生物医学自然言語処理タスクにおいて不可欠な側面です。
ただし、一般的なコーパスでトレーニングされた現在の大規模言語モデル (LLM) を使用して生物医学的エンティティをリンクする際の難しさは、生物医学的エンティティがテキスト内にほとんど分布していないため、LLM によるトレーニング中にほとんど表示されないことです。
同時に、これらの LLM は、異なるテキストのコンテキストで類似の概念を識別するのに役立つ、異なる生物医学的エンティティ間の高レベルの意味論的な接続を認識しません。
前述の問題に対処するために、最近の研究のいくつかは、ナレッジ グラフ情報を LLM に注入することに焦点を当てています。
しかし、以前の方法では、エンティティの関係知識が無視されるか、壊滅的な忘却につながります。
したがって、KG から合成されたコーパスによって強力な生成 LLM を事前トレーニングするための新しいフレームワークを提案します。
評価では、同義語、説明、または関連情報を含めることによる利点は確認できません。

要約(オリジナル)

Linking biomedical entities is an essential aspect in biomedical natural language processing tasks, such as text mining and question answering. However, a difficulty of linking the biomedical entities using current large language models (LLM) trained on a general corpus is that biomedical entities are scarcely distributed in texts and therefore have been rarely seen during training by the LLM. At the same time, those LLMs are not aware of high level semantic connection between different biomedical entities, which are useful in identifying similar concepts in different textual contexts. To cope with aforementioned problems, some recent works focused on injecting knowledge graph information into LLMs. However, former methods either ignore the relational knowledge of the entities or lead to catastrophic forgetting. Therefore, we propose a novel framework to pre-train the powerful generative LLM by a corpus synthesized from a KG. In the evaluations we are unable to confirm the benefit of including synonym, description or relational information.

arxiv情報

著者 Xi Yan,Cedric Möller,Ricardo Usbeck
発行日 2023-08-28 09:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク