要約
医療領域の多言語データセットであるE3C-3.0を提示します。これは、疾患と検査結果の関係が注釈された臨床症例を含むものです。
データセットには、5つの言語(英語、フランス語、イタリア語、スペイン語、バスク)のネイティブテキストと、英語のソースから翻訳および投影されたテキストの両方が含まれています。
大規模な言語モデル(LLM)や人間の修正に基づく自動注釈投影など、半自動アプローチが実装されています。
現在の最先端のLLMがE3C-3.0データセットで微調整されることから利益を得ることができることを示すいくつかの実験を提示します。
また、異なる言語での転送学習が非常に効果的であり、データの希少性を軽減することも示しています。
最後に、ネイティブデータと予測データの両方でパフォーマンスを比較します。
https://huggingface.co/collections/nlp-fbk/e3c-projected-676a7d6221608d60e4e9fd89でデータをリリースします。
要約(オリジナル)
We present E3C-3.0, a multilingual dataset in the medical domain, comprising clinical cases annotated with diseases and test-result relations. The dataset includes both native texts in five languages (English, French, Italian, Spanish and Basque) and texts translated and projected from the English source into five target languages (Greek, Italian, Polish, Slovak, and Slovenian). A semi-automatic approach has been implemented, including automatic annotation projection based on Large Language Models (LLMs) and human revision. We present several experiments showing that current state-of-the-art LLMs can benefit from being fine-tuned on the E3C-3.0 dataset. We also show that transfer learning in different languages is very effective, mitigating the scarcity of data. Finally, we compare performance both on native data and on projected data. We release the data at https://huggingface.co/collections/NLP-FBK/e3c-projected-676a7d6221608d60e4e9fd89 .
arxiv情報
著者 | Soumitra Ghosh,Begona Altuna,Saeed Farzi,Pietro Ferrazzi,Alberto Lavelli,Giulia Mezzanotte,Manuela Speranza,Bernardo Magnini |
発行日 | 2025-03-26 14:07:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google