要約
テキスト データ拡張の分野では、ルールベースの手法がコスト効率の高さから実世界のアプリケーションに広く採用されています。
ただし、従来のルールベースのアプローチでは、指定されたテキストの元の意味が失われる可能性があります。
我々は、文中で補助的な役割を果たす副詞を単純に削除することで、このような現象を回避する、新しいテキストデータ拡張戦略を提案します。
私たちの包括的な実験は、単一のテキスト分類だけでなく、意味の保存を必要とする自然言語推論に対しても、私たちが提案するアプローチの効率と有効性を実証しています。
再現性を確保するためにソースコードを公開しました。
要約(オリジナル)
In the field of text data augmentation, rule-based methods are widely adopted for real-world applications owing to their cost-efficiency. However, conventional rule-based approaches suffer from the possibility of losing the original semantics of the given text. We propose a novel text data augmentation strategy that avoids such phenomena through a straightforward deletion of adverbs, which play a subsidiary role in the sentence. Our comprehensive experiments demonstrate the efficiency and effectiveness of our proposed approach for not just single text classification, but also natural language inference that requires semantic preservation. We publicly released our source code for reproducibility.
arxiv情報
著者 | Juhwan Choi,YoungBin Kim |
発行日 | 2024-03-29 07:01:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google