Effects of Human Adversarial and Affable Samples on BERT Generalizability

要約

BERT ベースのモデルは、リーダーボードでは優れたパフォーマンスを示していますが、一般化が必要な現実の環境では明らかにパフォーマンスが低下しています。
トレーニング データの量が限られていることが、機械学習で一般化可能性を達成する上での主な障害であると考えられています。
この論文では、トレーニング データの量ではなく品質がモデルの一般化可能性に与える影響を検証します。
トレーニング データの 2 つの特性を考慮します。人間と敵対的な (h-adversarial) 部分、つまり、一見小さな違いがあるがグラウンド トゥルース ラベルが異なるサンプル ペア、および人間に親しみやすい (h-affable) トレーニング サンプル、つまり サンプルです。
わずかな違いはあるものの、同じグラウンドトゥルースラベルのペア。
経験則として、固定サイズのトレーニング サンプルの場合、h-敵対的インスタンスが 10 ~ 30% あると、テキスト分類と関係抽出のタスクの精度が向上し、したがって F1 が最大 20 ポイント向上することがわかりました。
この範囲を超えて h-adversarial を増やすと、パフォーマンスが停滞したり、パフォーマンスが低下したりする可能性があります。
対照的に、h-affable はモデルの汎化性に寄与しない可能性があり、汎化パフォーマンスを低下させる可能性さえあります。

要約(オリジナル)

BERT-based models have had strong performance on leaderboards, yet have been demonstrably worse in real-world settings requiring generalization. Limited quantities of training data is considered a key impediment to achieving generalizability in machine learning. In this paper, we examine the impact of training data quality, not quantity, on a model’s generalizability. We consider two characteristics of training data: the portion of human-adversarial (h-adversarial), i.e., sample pairs with seemingly minor differences but different ground-truth labels, and human-affable (h-affable) training samples, i.e., sample pairs with minor differences but the same ground-truth label. We find that for a fixed size of training samples, as a rule of thumb, having 10-30% h-adversarial instances improves the precision, and therefore F1, by up to 20 points in the tasks of text classification and relation extraction. Increasing h-adversarials beyond this range can result in performance plateaus or even degradation. In contrast, h-affables may not contribute to a model’s generalizability and may even degrade generalization performance.

arxiv情報

著者 Aparna Elangovan,Jiayuan He,Yuan Li,Karin Verspoor
発行日 2023-10-17 16:24:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク