要約
生物医学出版物の量は増え続けており、効率的な知識発見に対する重要なニーズが生じています。
これに関連して、特定の疾患に関する知識を生のテキストから直接構築するように設計されたオープンソースのエンドツーエンド フレームワークを紹介します。
疾患関連の知識発見の研究を促進するために、レット症候群とアルツハイマー病に焦点を当てた 2 つの注釈付きデータセットを作成し、生物医学的実体間の意味論的な関係の特定を可能にします。
広範なベンチマークでは、関係とエンティティ表現を表現するためのさまざまな方法を調査し、意味論的関係検出のための最適なモデリング戦略への洞察を提供し、知識発見における言語モデルの能力を強調します。
また、意味論的な関係を捉えるトランスフォーマーの能力を調査するために、さまざまなレイヤー表現と注意スコアを使用した調査実験も実施します。
要約(オリジナル)
The ever-growing volume of biomedical publications creates a critical need for efficient knowledge discovery. In this context, we introduce an open-source end-to-end framework designed to construct knowledge around specific diseases directly from raw text. To facilitate research in disease-related knowledge discovery, we create two annotated datasets focused on Rett syndrome and Alzheimer’s disease, enabling the identification of semantic relations between biomedical entities. Extensive benchmarking explores various ways to represent relations and entity representations, offering insights into optimal modeling strategies for semantic relation detection and highlighting language models’ competence in knowledge discovery. We also conduct probing experiments using different layer representations and attention scores to explore transformers’ ability to capture semantic relations.
arxiv情報
著者 | Christos Theodoropoulos,Andrei Catalin Coman,James Henderson,Marie-Francine Moens |
発行日 | 2024-12-04 17:05:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google