FRASIMED: a Clinical French Annotated Resource Produced through Crosslingual BERT-Based Annotation Projection

要約

低リソースコーパス向けの固有表現認識 (NER) などの自然言語処理 (NLP) アプリケーションは、依然として大規模な注釈付きデータセットが必要な大規模言語モデル (LLM) の開発における最近の進歩の恩恵を受けません。
この研究記事では、言語を超えたアノテーション射影を通じて、アノテーション付きデータセットの翻訳版を生成する方法論を紹介します。
言語に依存しない BERT ベースのアプローチを活用することで、人的労力をほとんどかけず、すでに利用可能なオープン データ リソースのみを使用して、低リソースのコーパスを増やす効率的なソリューションです。
半自動データ生成戦略の品質と有効性を評価する場合、定量的および定性的な評価が不足していることがよくあります。
言語を超えたアノテーション投影アプローチの評価では、結果として得られたデータセットの有効性と高精度の両方が示されました。
この方法論の実際の応用として、フランス語の 2,051 件の合成臨床症例からなる注釈付きコーパスである医療エンティティ検出のための意味論的情報を含むフランス語注釈付きリソース (FRASIMED) の作成を紹介します。
このコーパスは、研究者や実務家が臨床分野でフランス語の自然言語処理 (NLP) アプリケーションを開発および改良するために利用できるようになり (https://zenodo.org/record/8355629)、リンクされた医療概念を備えた最大のオープンな注釈付きコーパスとなっています。
フランス語で。

要約(オリジナル)

Natural language processing (NLP) applications such as named entity recognition (NER) for low-resource corpora do not benefit from recent advances in the development of large language models (LLMs) where there is still a need for larger annotated datasets. This research article introduces a methodology for generating translated versions of annotated datasets through crosslingual annotation projection. Leveraging a language agnostic BERT-based approach, it is an efficient solution to increase low-resource corpora with few human efforts and by only using already available open data resources. Quantitative and qualitative evaluations are often lacking when it comes to evaluating the quality and effectiveness of semi-automatic data generation strategies. The evaluation of our crosslingual annotation projection approach showed both effectiveness and high accuracy in the resulting dataset. As a practical application of this methodology, we present the creation of French Annotated Resource with Semantic Information for Medical Entities Detection (FRASIMED), an annotated corpus comprising 2’051 synthetic clinical cases in French. The corpus is now available for researchers and practitioners to develop and refine French natural language processing (NLP) applications in the clinical field (https://zenodo.org/record/8355629), making it the largest open annotated corpus with linked medical concepts in French.

arxiv情報

著者 Jamil Zaghir,Mina Bjelogrlic,Jean-Philippe Goldman,Soukaïna Aananou,Christophe Gaudet-Blavignac,Christian Lovis
発行日 2023-09-19 17:17:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク