STA: Self-controlled Text Augmentation for Improving Text Classifications

要約

機械学習の最近の進歩にもかかわらず、多くのタスクは依然として低データ領域での作業を伴い、自然言語の問題を解決することが困難になる可能性があります。
最近、自然言語処理 (NLP) の分野で多くのテキスト拡張技術が登場しました。これにより、新しい例でトレーニング データを充実させることができますが、注意点がないわけではありません。
たとえば、単純なルールベースのヒューリスティック手法は効果的ですが、元のテキストに対する意味内容と構文構造のバリエーションが不足しています。
一方、より複雑な深層学習アプローチは、テキストの本質的な意味に極端な変化を引き起こし、不要なノイズをトレーニング データに導入する可能性があります。
拡張された例の品質をより確実に制御するために、Self-Controlled Text Augmentation (STA) の最先端のアプローチを導入します。
私たちのアプローチは、生成された例が元のテキストの意味内容を確実に保持するように自己チェック手順を導入することにより、生成プロセスを厳密に制御します。
複数のベンチマーク データセットでの実験結果は、STA が既存の最先端の手法よりも大幅に優れていることを示していますが、定性分析では、生成された例が語彙的に多様であり、意味的に信頼できることが明らかになりました。

要約(オリジナル)

Despite recent advancements in Machine Learning, many tasks still involve working in low-data regimes which can make solving natural language problems difficult. Recently, a number of text augmentation techniques have emerged in the field of Natural Language Processing (NLP) which can enrich the training data with new examples, though they are not without their caveats. For instance, simple rule-based heuristic methods are effective, but lack variation in semantic content and syntactic structure with respect to the original text. On the other hand, more complex deep learning approaches can cause extreme shifts in the intrinsic meaning of the text and introduce unwanted noise into the training data. To more reliably control the quality of the augmented examples, we introduce a state-of-the-art approach for Self-Controlled Text Augmentation (STA). Our approach tightly controls the generation process by introducing a self-checking procedure to ensure that generated examples retain the semantic content of the original text. Experimental results on multiple benchmarking datasets demonstrate that STA substantially outperforms existing state-of-the-art techniques, whilst qualitative analysis reveals that the generated examples are both lexically diverse and semantically reliable.

arxiv情報

著者 Congcong Wang,Gonzalo Fiz Pontiveros,Steven Derby,Tri Kurniawan Wijaya
発行日 2023-02-24 17:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク