要約
近年、Switch Transformer などの Transformer ベースのモデルは、自然言語処理タスクで目覚ましい成果を上げています。
ただし、これらのモデルは複雑すぎることが多く、大規模な事前トレーニングが必要なため、データが限られている小さな臨床テキスト分類タスクの有効性が制限されます。
この研究では、簡素化された Switch Transformer フレームワークを提案し、CHU Sainte-Justine 病院の小さなフランス語の臨床テキスト分類データセットでゼロからトレーニングします。
私たちの結果は、単純化された小規模な Transformer モデルが、DistillBERT、CamemBERT、FlauBERT、FrALBERT などの事前トレーニング済みの BERT ベースのモデルよりも優れていることを示しています。
さらに、Switch Transformer のエキスパート メカニズムを組み合わせて使用することで、多様なパターンを捉えることができます。
したがって、提案されたアプローチは、自己注意メカニズムを備えた従来のトランスフォーマーよりも優れた結果を達成します。
最後に、提案されたフレームワークは 87\% の精度、87\% の精度、および 85\% のリコールを達成します。これは、84\% の精度を達成した 3 番目に優れた事前トレーニング済みの BERT ベースのモデルである FlauBERT と比較してです。
、適合率 84\%、再現率 84\% です。
ただし、スイッチ トランスフォーマーには、一般化のギャップや鋭い最小値などの制限があります。
小規模なフランスの臨床物語分類の多層パーセプトロン ニューラル ネットワークと比較し、後者が他のすべてのモデルよりも優れていることを示します。
要約(オリジナル)
In recent years, Transformer-based models such as the Switch Transformer have achieved remarkable results in natural language processing tasks. However, these models are often too complex and require extensive pre-training, which limits their effectiveness for small clinical text classification tasks with limited data. In this study, we propose a simplified Switch Transformer framework and train it from scratch on a small French clinical text classification dataset at CHU Sainte-Justine hospital. Our results demonstrate that the simplified small-scale Transformer models outperform pre-trained BERT-based models, including DistillBERT, CamemBERT, FlauBERT, and FrALBERT. Additionally, using a mixture of expert mechanisms from the Switch Transformer helps capture diverse patterns; hence, the proposed approach achieves better results than a conventional Transformer with the self-attention mechanism. Finally, our proposed framework achieves an accuracy of 87\%, precision at 87\%, and recall at 85\%, compared to the third-best pre-trained BERT-based model, FlauBERT, which achieved an accuracy of 84\%, precision at 84\%, and recall at 84\%. However, Switch Transformers have limitations, including a generalization gap and sharp minima. We compare it with a multi-layer perceptron neural network for small French clinical narratives classification and show that the latter outperforms all other models.
arxiv情報
著者 | Thanh-Dung Le,Philippe Jouvet,Rita Noumeir |
発行日 | 2023-03-22 20:10:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google