要約
この研究では、固有表現認識 (NER) タスクにおける信頼性の調整と不確実性の推定に対するデータ拡張の影響を調査します。
医療や金融などの安全性が重要な分野での NER の将来の進歩のためには、事前トレーニング済み言語モデル (PLM) を含むディープ ニューラル ネットワーク (DNN) を現実世界として適用する際に、調整された信頼性を備えた正確な予測を達成することが不可欠です。
応用。
ただし、DNN は校正ミスを起こしやすいため、適用性が制限されます。
さらに、既存の校正および不確かさの推定方法は、計算コストが高くつきます。
NER での私たちの調査では、データ拡張により、ジャンルや言語を超えた設定、特にドメイン内の設定における調整と不確実性が改善されることがわかりました。
さらに、データ拡張によって生成された文の複雑さが低いほど、NER のキャリブレーションがより効果的になる傾向があり、拡張のサイズを大きくするとキャリブレーションと不確実性がさらに向上することを示しました。
要約(オリジナル)
This work investigates the impact of data augmentation on confidence calibration and uncertainty estimation in Named Entity Recognition (NER) tasks. For the future advance of NER in safety-critical fields like healthcare and finance, it is essential to achieve accurate predictions with calibrated confidence when applying Deep Neural Networks (DNNs), including Pre-trained Language Models (PLMs), as a real-world application. However, DNNs are prone to miscalibration, which limits their applicability. Moreover, existing methods for calibration and uncertainty estimation are computational expensive. Our investigation in NER found that data augmentation improves calibration and uncertainty in cross-genre and cross-lingual setting, especially in-domain setting. Furthermore, we showed that the calibration for NER tends to be more effective when the perplexity of the sentences generated by data augmentation is lower, and that increasing the size of the augmentation further improves calibration and uncertainty.
arxiv情報
著者 | Wataru Hashimoto,Hidetaka Kamigaito,Taro Watanabe |
発行日 | 2024-10-25 10:07:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google