要約
英語以外のテキストに対する臨床領域の固有表現認識 (NER) などの自然言語タスクは、注釈付きデータが不足しているため、非常に時間がかかり、費用がかかる可能性があります。
言語間転送 (CLT) は、多言語の大規模言語モデルの機能を利用して、ある言語の特定のタスクを微調整し、別の言語の同じタスクに対して高い精度を提供することで、この問題を回避する方法です。
ただし、翻訳モデルを利用する他の方法を使用すると、トレーニング セットまたはテスト セットを翻訳することで、ターゲット言語の注釈付きデータなしで NER を実行できます。
この論文では、フランス語とドイツ語でトレーニング データを使用せずに臨床 NER を実行するための、これら 2 つの代替方法と言語間転送を比較します。
この目的を達成するために、フランスの医薬品処方箋から抽出され、英語のデータセットと同じガイドラインで注釈が付けられた医療 NER テスト セットである MedNERF をリリースします。
このデータセットとドイツの医療データセット (Frei および Kramer、2021) に関する広範な実験を通じて、翻訳ベースの手法は CLT と同様のパフォーマンスを達成できるものの、設計にはより注意が必要であることを示しました。
また、単言語臨床言語モデルを利用することはできますが、言語を越えた転送や翻訳の場合でも、大規模な汎用多言語モデルよりも優れた結果が保証されるわけではありません。
要約(オリジナル)
Natural language tasks like Named Entity Recognition (NER) in the clinical domain on non-English texts can be very time-consuming and expensive due to the lack of annotated data. Cross-lingual transfer (CLT) is a way to circumvent this issue thanks to the ability of multilingual large language models to be fine-tuned on a specific task in one language and to provide high accuracy for the same task in another language. However, other methods leveraging translation models can be used to perform NER without annotated data in the target language, by either translating the training set or test set. This paper compares cross-lingual transfer with these two alternative methods, to perform clinical NER in French and in German without any training data in those languages. To this end, we release MedNERF a medical NER test set extracted from French drug prescriptions and annotated with the same guidelines as an English dataset. Through extensive experiments on this dataset and on a German medical dataset (Frei and Kramer, 2021), we show that translation-based methods can achieve similar performance to CLT but require more care in their design. And while they can take advantage of monolingual clinical language models, those do not guarantee better results than large general-purpose multilingual models, whether with cross-lingual transfer or translation.
arxiv情報
著者 | Xavier Fontaine,Félix Gaschi,Parisa Rastin,Yannick Toussaint |
発行日 | 2023-06-07 12:31:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google