要約
近年、スタンフォード自然言語推論や多ジャンル自然言語推論などの大規模な注釈付きデータセットの利用可能性と、事前訓練された言語モデルの出現が自然言語の発展に大きく貢献してきました。
推論ドメイン。
ただし、これらのクラウドソースの注釈付きデータセットにはバイアスやデータセットのアーティファクトが含まれることが多く、モデルのパフォーマンスが過大評価され、一般化が不十分になります。
この作業では、データセットのアーティファクトを調査し、これらの問題に対処する戦略を開発することに焦点を当てています。
新しい統計的テスト手順の利用を通じて、語彙分布とテキスト含意クラスとの間に重要な関連性が発見され、バイアスの顕著な原因として語彙が強調されます。
これらの問題を軽減するために、文字レベルから単語レベルにわたるいくつかの自動データ拡張戦略を提案します。
ELECTRA の事前トレーニング済み言語モデルを微調整することで、拡張データを使用してブーストされたモデルのパフォーマンスを、ベースラインの対応するモデルと比較します。
実験では、提案されたアプローチがモデルの精度を効果的に高め、バイアスをそれぞれ最大 0.66% と 1.14% 削減することを示しています。
要約(オリジナル)
In recent years, the availability of large-scale annotated datasets, such as the Stanford Natural Language Inference and the Multi-Genre Natural Language Inference, coupled with the advent of pre-trained language models, has significantly contributed to the development of the natural language inference domain. However, these crowdsourced annotated datasets often contain biases or dataset artifacts, leading to overestimated model performance and poor generalization. In this work, we focus on investigating dataset artifacts and developing strategies to address these issues. Through the utilization of a novel statistical testing procedure, we discover a significant association between vocabulary distribution and text entailment classes, emphasizing vocabulary as a notable source of biases. To mitigate these issues, we propose several automatic data augmentation strategies spanning character to word levels. By fine-tuning the ELECTRA pre-trained language model, we compare the performance of boosted models with augmented data against their baseline counterparts. The experiments demonstrate that the proposed approaches effectively enhance model accuracy and reduce biases by up to 0.66% and 1.14%, respectively.
arxiv情報
著者 | Dat Thanh Nguyen |
発行日 | 2023-12-14 08:46:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google