CamemBERT-bio: a Tasty French Language Model Better for your Health

要約

病院内の臨床データは、臨床データ ウェアハウスを通じて研究のためにアクセスできるようになってきていますが、これらの文書は構造化されていません。
したがって、臨床研究を実施するには医学報告書から情報を抽出する必要があります。
CamemBERT などの BERT に似たモデルを使用した転移学習により、特に固有表現認識において大きな進歩が得られました。
ただし、これらのモデルは平易な言語でトレーニングされており、生物医学データでは効率が低くなります。
これが、私たちが CamemBERT の事前トレーニングを継続した新しいフランスの公的生物医学データセットを提案する理由です。
したがって、フランスの生物医学分野に特化した公開モデルである CamemBERT-bio の最初のバージョンを導入します。これは、さまざまな生物医学の固有表現認識タスクで平均 2.54 ポイントの F1 スコアの向上を示しています。

要約(オリジナル)

Clinical data in hospitals are increasingly accessible for research through clinical data warehouses, however these documents are unstructured. It is therefore necessary to extract information from medical reports to conduct clinical studies. Transfer learning with BERT-like models such as CamemBERT has allowed major advances, especially for named entity recognition. However, these models are trained for plain language and are less efficient on biomedical data. This is why we propose a new French public biomedical dataset on which we have continued the pre-training of CamemBERT. Thus, we introduce a first version of CamemBERT-bio, a specialized public model for the French biomedical domain that shows 2.54 points of F1 score improvement on average on different biomedical named entity recognition tasks.

arxiv情報

著者 Rian Touchent,Laurent Romary,Eric de la Clergerie
発行日 2023-06-27 15:23:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク