BERT WEAVER: Using WEight AVERaging to enable lifelong learning for transformer-based models in biomedical semantic search engines

要約

転移学習の最近の発展により、自然言語処理タスクの進歩が加速しました。
ただし、パフォーマンスは、手動で注釈が付けられた高品質のトレーニング データに依存します。
特に生物医学分野では、新しいデータを効率的に予測できる汎用モデルを学習するには、1 つのトレーニング コーパスでは不十分であることが示されています。
したがって、最先端のモデルを現実世界のアプリケーションで使用するには、モデル全体を最初から再トレーニングすることなく、新しいデータが利用可能になるとすぐにパフォーマンスを向上させるための生涯学習機能が必要です。
私たちは、古い知識を新しいモデルに注入し、それによって壊滅的な忘れを減らす、シンプルでありながら効率的な後処理方法である WEAVER を紹介します。
WEAVER を逐次的に適用すると、すべてのデータに対して同時にトレーニングを組み合わせた場合と同様の単語埋め込み分布が得られ、同時に計算効率が向上することを示します。
データ共有の必要がないため、提示された方法はフェデレーテッド ラーニング設定にも簡単に適用でき、たとえば、さまざまなクリニックからの電子医療記録のマイニングに有益です。

要約(オリジナル)

Recent developments in transfer learning have boosted the advancements in natural language processing tasks. The performance is, however, dependent on high-quality, manually annotated training data. Especially in the biomedical domain, it has been shown that one training corpus is not enough to learn generic models that are able to efficiently predict on new data. Therefore, in order to be used in real world applications state-of-the-art models need the ability of lifelong learning to improve performance as soon as new data are available – without the need of re-training the whole model from scratch. We present WEAVER, a simple, yet efficient post-processing method that infuses old knowledge into the new model, thereby reducing catastrophic forgetting. We show that applying WEAVER in a sequential manner results in similar word embedding distributions as doing a combined training on all data at once, while being computationally more efficient. Because there is no need of data sharing, the presented method is also easily applicable to federated learning settings and can for example be beneficial for the mining of electronic health records from different clinics.

arxiv情報

著者 Lisa Kühnel,Alexander Schulz,Barbara Hammer,Juliane Fluck
発行日 2023-10-31 15:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク