MEDBERT.de: A Comprehensive German BERT Model for the Medical Domain

要約

このホワイト ペーパーでは、ドイツの医療分野向けに特別に設計された事前トレーニング済みのドイツ語 BERT モデルである medBERT.de を紹介します。
このモデルは、470 万のドイツの医療文書の大規模なコーパスでトレーニングされており、幅広い分野と医療文書の種類をカバーする 8 つの異なる医療ベンチマークで新しい最先端のパフォーマンスを達成することが示されています。
このホワイト ペーパーでは、モデルの全体的なパフォーマンスを評価するだけでなく、その機能の詳細な分析も行います。
モデルのパフォーマンスに対するデータの重複排除の影響と、より効率的なトークン化方法を使用することの潜在的な利点を調査します。
私たちの結果は、medBERT.de などのドメイン固有のモデルが特に長いテキストに役立ち、トレーニング データの重複排除が必ずしもパフォーマンスの向上につながらないことを示しています。
さらに、効率的なトークン化は、モデルのパフォーマンスを向上させる上で小さな役割しか果たしておらず、パフォーマンスの向上の大部分は大量のトレーニング データによるものであることがわかりました。
さらなる研究を促進するために、事前にトレーニングされたモデルの重みと放射線データに基づく新しいベンチマークは、科学コミュニティが使用できるように公開されています。

要約(オリジナル)

This paper presents medBERT.de, a pre-trained German BERT model specifically designed for the German medical domain. The model has been trained on a large corpus of 4.7 Million German medical documents and has been shown to achieve new state-of-the-art performance on eight different medical benchmarks covering a wide range of disciplines and medical document types. In addition to evaluating the overall performance of the model, this paper also conducts a more in-depth analysis of its capabilities. We investigate the impact of data deduplication on the model’s performance, as well as the potential benefits of using more efficient tokenization methods. Our results indicate that domain-specific models such as medBERT.de are particularly useful for longer texts, and that deduplication of training data does not necessarily lead to improved performance. Furthermore, we found that efficient tokenization plays only a minor role in improving model performance, and attribute most of the improved performance to the large amount of training data. To encourage further research, the pre-trained model weights and new benchmarks based on radiological data are made publicly available for use by the scientific community.

arxiv情報

著者 Keno K. Bressem,Jens-Michalis Papaioannou,Paul Grundmann,Florian Borchert,Lisa C. Adams,Leonhard Liu,Felix Busch,Lina Xu,Jan P. Loyen,Stefan M. Niehues,Moritz Augustin,Lennart Grosser,Marcus R. Makowski,Hugo JWL. Aerts,Alexander Löser
発行日 2023-03-14 18:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク