要約
目的: 特に英語に比べて利用可能な言語リソースが少ない場合に、多くの言語にわたる医療エンティティの正規化のパフォーマンスを向上させること。
材料と方法: 低リソースと高リソースの両方のシナリオで適切に機能する、言語を超えた医療エンティティの正規化のためのモジュール式システムである xMEN を紹介します。
特定の用語に対してターゲット言語の同義語が不足している場合は、言語横断的な候補生成を通じて英語の別名を活用します。
候補のランキングについては、ターゲット タスクのアノテーションが利用可能な場合、トレーニング可能なクロスエンコーダー モデルを組み込みます。
また、高リソース領域からの機械翻訳されたデータセットに基づいて、弱く監視された方法でトレーニングされたクロスエンコーダーも評価します。
私たちのシステムは、拡張可能な Python ツールキットとして公開されています。
結果: xMEN は、幅広い多言語ベンチマーク データセットにわたって最先端のパフォーマンスを向上させます。
弱く監視されたクロスエンコーダーは、ターゲット タスクに使用できるトレーニング データがない場合に効果的です。
xMEN は BigBIO フレームワークと互換性があるため、既存および将来のデータセットで簡単に使用できます。
考察: 私たちの実験は、汎用候補ジェネレーターの出力と後続のトレーニング可能な再ランカーの出力のバランスをとることの重要性を示しています。これは、クロスエンコーダーの損失関数のランク正則化項を通じて達成されます。
ただし、エラー分析により、複数の単語の式やその他の複雑なエンティティは依然として困難であることがわかります。
結論: xMEN は、ラベル付きデータがなく、ターゲット言語の用語別名がほとんどない場合でも、複数言語での医療エンティティの正規化に対して強力なパフォーマンスを示します。
その構成システムと評価モジュールにより、再現可能なベンチマークが可能になります。
モデルとコードは、次の URL からオンラインで入手できます: https://github.com/hpi-dhc/xmen
要約(オリジナル)
Objective: To improve performance of medical entity normalization across many languages, especially when fewer language resources are available compared to English. Materials and Methods: We introduce xMEN, a modular system for cross-lingual medical entity normalization, which performs well in both low- and high-resource scenarios. When synonyms in the target language are scarce for a given terminology, we leverage English aliases via cross-lingual candidate generation. For candidate ranking, we incorporate a trainable cross-encoder model if annotations for the target task are available. We also evaluate cross-encoders trained in a weakly supervised manner based on machine-translated datasets from a high resource domain. Our system is publicly available as an extensible Python toolkit. Results: xMEN improves the state-of-the-art performance across a wide range of multilingual benchmark datasets. Weakly supervised cross-encoders are effective when no training data is available for the target task. Through the compatibility of xMEN with the BigBIO framework, it can be easily used with existing and prospective datasets. Discussion: Our experiments show the importance of balancing the output of general-purpose candidate generators with subsequent trainable re-rankers, which we achieve through a rank regularization term in the loss function of the cross-encoder. However, error analysis reveals that multi-word expressions and other complex entities are still challenging. Conclusion: xMEN exhibits strong performance for medical entity normalization in multiple languages, even when no labeled data and few terminology aliases for the target language are available. Its configuration system and evaluation modules enable reproducible benchmarks. Models and code are available online at the following URL: https://github.com/hpi-dhc/xmen
arxiv情報
著者 | Florian Borchert,Ignacio Llorca,Roland Roller,Bert Arnrich,Matthieu-P. Schapranow |
発行日 | 2023-10-17 13:53:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google