Large-scale investigation of weakly-supervised deep learning for the fine-grained semantic indexing of biomedical literature

要約

目的: 生物医学文献のセマンティック インデックス付けは通常、複数の関連するが別個の生物医学概念を含む MeSH 記述子のレベルで行われ、多くの場合一緒にグループ化され、単一のトピックとして扱われます。
この研究は、MeSH 概念のレベルで主題のアノテーションを自動改良するための新しい方法を提案します。
方法: ラベル付きデータが不足しているため、論文の要約における概念の出現に基づく弱い監視に依存していますが、これも辞書ベースのヒューリスティックによって強化されています。
さらに、深層学習のアプローチを調査し、このタスクの特定の課題に取り組むための設計の選択を行います。
新しい手法は、記述子に昇格された概念に基づいて、大規模な遡及シナリオで評価されます。
結果: 私たちの実験では、コンセプト オカレンスが最も強力なヒューリスティックであり、いくつかのラベルにわたって約 0.63 のマクロ F1 スコアを達成しました。
提案手法ではさらに4pp以上改善した。
結論: 結果は、概念の出現が MeSH 概念のレベルで粗粒ラベルを洗練するための強力なヒューリスティックであり、提案された方法がそれをさらに改善することを示唆しています。

要約(オリジナル)

Objective: Semantic indexing of biomedical literature is usually done at the level of MeSH descriptors with several related but distinct biomedical concepts often grouped together and treated as a single topic. This study proposes a new method for the automated refinement of subject annotations at the level of MeSH concepts. Methods: Lacking labelled data, we rely on weak supervision based on concept occurrence in the abstract of an article, which is also enhanced by dictionary-based heuristics. In addition, we investigate deep learning approaches, making design choices to tackle the particular challenges of this task. The new method is evaluated on a large-scale retrospective scenario, based on concepts that have been promoted to descriptors. Results: In our experiments concept occurrence was the strongest heuristic achieving a macro-F1 score of about 0.63 across several labels. The proposed method improved it further by more than 4pp. Conclusion: The results suggest that concept occurrence is a strong heuristic for refining the coarse-grained labels at the level of MeSH concepts and the proposed method improves it further.

arxiv情報

著者 Anastasios Nentidis,Thomas Chatzopoulos,Anastasia Krithara,Grigorios Tsoumakas,Georgios Paliouras
発行日 2023-10-05 14:17:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL, cs.LG パーマリンク