SoftEDA: Rethinking Rule-Based Data Augmentation with Soft Labels

要約

ルールベースのテキスト データ拡張は、そのシンプルさから NLP タスクに広く使用されています。
ただし、この方法ではテキストの元の意味が損なわれる可能性があり、最終的にはモデルのパフォーマンスに悪影響を及ぼします。
この制限を克服するために、拡張データにソフト ラベルを適用する簡単な手法を提案します。
私たちは 7 つの異なる分類タスクにわたって実験を実施し、提案したアプローチの有効性を経験的に実証しました。
再現性を高めるためにソースコードを公開しています。

要約(オリジナル)

Rule-based text data augmentation is widely used for NLP tasks due to its simplicity. However, this method can potentially damage the original meaning of the text, ultimately hurting the performance of the model. To overcome this limitation, we propose a straightforward technique for applying soft labels to augmented data. We conducted experiments across seven different classification tasks and empirically demonstrated the effectiveness of our proposed approach. We have publicly opened our source code for reproducibility.

arxiv情報

著者 Juhwan Choi,Kyohoon Jin,Junho Lee,Sangmin Song,Youngbin Kim
発行日 2024-02-08 11:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク