AutoAugment Is What You Need: Enhancing Rule-based Augmentation Methods in Low-resource Regimes

要約

テキスト データの拡張は、文が個別であるため、複雑な問題になります。
ルールベースの拡張手法は、そのシンプルさから現実世界のアプリケーションで広く採用されていますが、潜在的な意味論的な損傷に悩まされています。
以前の研究者は、この問題を軽減するためにラベル スムージングを採用し、ソフト ラベル (softEDA) を使用して簡単にデータを拡張することを提案しました。
ただし、各モデルとデータセットに最適な係数を見つけるのは困難です。
したがって、現実世界のアプリケーションで SoftEDA を使用することは依然として困難です。
この論文では、この問題を解決するために AutoAugment を適応させることを提案します。
実験結果は、提案された方法が既存の拡張方法を強化できること、およびルールベースの方法が最先端の事前トレーニング済み言語モデルを強化できることを示唆しています。
ソースコードを提供いたします。

要約(オリジナル)

Text data augmentation is a complex problem due to the discrete nature of sentences. Although rule-based augmentation methods are widely adopted in real-world applications because of their simplicity, they suffer from potential semantic damage. Previous researchers have suggested easy data augmentation with soft labels (softEDA), employing label smoothing to mitigate this problem. However, finding the best factor for each model and dataset is challenging; therefore, using softEDA in real-world applications is still difficult. In this paper, we propose adapting AutoAugment to solve this problem. The experimental results suggest that the proposed method can boost existing augmentation methods and that rule-based methods can enhance cutting-edge pre-trained language models. We offer the source code.

arxiv情報

著者 Juhwan Choi,Kyohoon Jin,Junho Lee,Sangmin Song,Youngbin Kim
発行日 2024-02-08 11:36:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク