要約
生物医学的自然言語処理 (NLP) は、多くの場合、処理されるテキストの量と不均一性が原因で、ほとんどの研究者にとって扱いにくくなる傾向があります。
この課題に対処するために、業界は継続的に高効率ツールを開発し、より柔軟なエンジニアリング ソリューションを作成しています。
この研究では、効率的なデータ処理のための産業データ エンジニアリング ソリューションと、固有表現認識 (LasigeUnicage\_NER) および関係抽出 (BiOnt) のために開発された学術システムとの統合を紹介します。
私たちの設計は、これらのコンポーネントと、他のデータセットや生物医学オントロジーからの追加のトレーニング データの形での外部知識との統合を反映しています。
私たちはこのパイプラインを 2022 LitCoin NLP Challenge で使用しました。そこでは、学術界 (LASIGE) と業界 (Unicage) のコラボレーションの成功を反映して、私たちのチーム LasigeUnicage が約 200 の参加チームの中から 7 位を受賞しました。
この作業をサポートするソフトウェアは、\url{https://github.com/lasigeBioTM/Litcoin-Lasige_Unicage} で入手できます。
要約(オリジナル)
Biomedical Natural Language Processing (NLP) tends to become cumbersome for most researchers, frequently due to the amount and heterogeneity of text to be processed. To address this challenge, the industry is continuously developing highly efficient tools and creating more flexible engineering solutions. This work presents the integration between industry data engineering solutions for efficient data processing and academic systems developed for Named Entity Recognition (LasigeUnicage\_NER) and Relation Extraction (BiOnt). Our design reflects an integration of those components with external knowledge in the form of additional training data from other datasets and biomedical ontologies. We used this pipeline in the 2022 LitCoin NLP Challenge, where our team LasigeUnicage was awarded the 7th Prize out of approximately 200 participating teams, reflecting a successful collaboration between the academia (LASIGE) and the industry (Unicage). The software supporting this work is available at \url{https://github.com/lasigeBioTM/Litcoin-Lasige_Unicage}.
arxiv情報
著者 | Pedro Ruas,Diana F. Sousa,André Neves,Carlos Cruz,Francisco M. Couto |
発行日 | 2023-08-10 14:41:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google