A Systematic Evaluation of Federated Learning on Biomedical Natural Language Processing

要約

BERT や GPT などの言語モデル (LM) は、自然言語処理 (NLP) に革命をもたらしました。
しかし、プライバシーに敏感な分野、特に医療分野では、医療保険の相互運用性と説明責任に関する法律 (HIPPA) や一般データ保護規則 (GDPR) などの規制によって課されるデータ アクセスの制限とプライバシーの制約により、LM のトレーニングが課題に直面しています。
フェデレーション ラーニング (FL) は、データ プライバシーの保護を確保しながら共同学習を可能にする分散型ソリューションを提供します。
この研究では、$8$ コーパスを含む $6$ LM を使用して、$2$ の生物医学 NLP タスク全体で医学における FL を体系的に評価します。
私たちの結果は次のことを示しました: 1) FL モデルは、個々のクライアントのデータでトレーニングされた LM よりも一貫して優れており、ポーリングされたデータでトレーニングされたモデルと一致する場合もあります。
2) 総データ数が固定されている場合、より多くのクライアントで FL を使用してトレーニングされた LM はパフォーマンスが劣りますが、事前トレーニングされたトランスフォーマー ベースのモデルはより優れた回復力を示しました。
3) FL を使用してトレーニングされた LM は、クライアントのデータが IID 分散されている場合、プールされたデータでトレーニングされたモデルとほぼ同等のパフォーマンスを示しますが、非 IID データとの目に見えるギャップは見られます。
コードは https://github.com/PL97/FedNLP で入手できます。

要約(オリジナル)

Language models (LMs) like BERT and GPT have revolutionized natural language processing (NLP). However, privacy-sensitive domains, particularly the medical field, face challenges to train LMs due to limited data access and privacy constraints imposed by regulations like the Health Insurance Portability and Accountability Act (HIPPA) and the General Data Protection Regulation (GDPR). Federated learning (FL) offers a decentralized solution that enables collaborative learning while ensuring the preservation of data privacy. In this study, we systematically evaluate FL in medicine across $2$ biomedical NLP tasks using $6$ LMs encompassing $8$ corpora. Our results showed that: 1) FL models consistently outperform LMs trained on individual client’s data and sometimes match the model trained with polled data; 2) With the fixed number of total data, LMs trained using FL with more clients exhibit inferior performance, but pre-trained transformer-based models exhibited greater resilience. 3) LMs trained using FL perform nearly on par with the model trained with pooled data when clients’ data are IID distributed while exhibiting visible gaps with non-IID data. Our code is available at: https://github.com/PL97/FedNLP

arxiv情報

著者 Le Peng,sicheng zhou,jiandong chen,Rui Zhang,Ziyue Xu,Ju Sun
発行日 2023-07-20 22:10:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク