CamemBERT-bio: a Tasty French Language Model Better for your Health

要約

病院内の臨床データは、臨床データ ウェアハウスを通じて研究のためにアクセスできるようになってきていますが、これらの文書は構造化されていません。
したがって、臨床研究を実施するには医学報告書から情報を抽出する必要があります。
CamemBERT などの BERT に似たモデルを使用した転移学習により、特に固有表現認識において大きな進歩が得られました。
ただし、これらのモデルは平易な言語でトレーニングされており、生物医学データでは効率が低くなります。
これが、私たちが CamemBERT の事前トレーニングを継続した新しいフランスの公的生物医学データセットを提案する理由です。
したがって、フランスの生物医学分野に特化した公開モデルである CamemBERT-bio の最初のバージョンを導入します。これは、さまざまな生物医学の固有表現認識タスクで平均 2.54 ポイントの F1 スコアの向上を示しています。
私たちの調査結果は、フランス語モデルによる継続的な事前トレーニングの成功を示しており、同じドメインおよび言語に関する最近の提案と対照的です。
私たちの重要な貢献の 1 つは、フランスの生物医学モデルの現在の最先端を明確に把握できる標準評価プロトコルを使用することの重要性を強調しています。

要約(オリジナル)

Clinical data in hospitals are increasingly accessible for research through clinical data warehouses, however these documents are unstructured. It is therefore necessary to extract information from medical reports to conduct clinical studies. Transfer learning with BERT-like models such as CamemBERT has allowed major advances, especially for named entity recognition. However, these models are trained for plain language and are less efficient on biomedical data. This is why we propose a new French public biomedical dataset on which we have continued the pre-training of CamemBERT. Thus, we introduce a first version of CamemBERT-bio, a specialized public model for the French biomedical domain that shows 2.54 points of F1 score improvement on average on different biomedical named entity recognition tasks. Our findings demonstrate the success of continual pre-training from a French model and contrast with recent proposals on the same domain and language. One of our key contributions highlights the importance of using a standard evaluation protocol that enables a clear view of the current state-of-the-art for French biomedical models.

arxiv情報

著者 Rian Touchent,Laurent Romary,Eric de la Clergerie
発行日 2023-08-02 17:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク