Advancing NLP Models with Strategic Text Augmentation: A Comprehensive Study of Augmentation Methods and Curriculum Strategies

要約

この研究では、さまざまなデータセットおよび自然言語処理 (NLP) タスクにわたるテキスト拡張手法の徹底的な評価を実施し、これらの手法の信頼できる一般化された証拠の欠如に対処します。
トピック分類、感情分析、不快な言葉の検出などのタスクのパフォーマンスを向上させるためにトレーニング セットを強化する際のこれらの手法の有効性を検証します。
この研究では、拡張方法だけでなく、トレーニング中に実際のインスタンスと拡張インスタンスが導入される戦略的順序にも重点が置かれています。
主な貢献は、この分野での新しいアプローチを表す、拡張データセット用の修正循環カリキュラム学習 (MCCL) の開発と評価です。
結果は、特定の拡張手法が、特に MCCL と統合された場合に、NLP モデルのパフォーマンスにおいて従来のトレーニング アプローチよりも大幅に優れていることを示しています。
これらの結果は、さまざまな NLP タスクにおける速度と品質向上のバランスを最適化するために、拡張技術とシーケンス戦略を慎重に選択する必要があることを強調しています。
この研究では、拡張手法を特に MCCL と組み合わせて使用​​すると、さまざまな分類タスクの結果が向上し、NLP におけるテキスト拡張戦略の将来の進歩の基盤が提供されると結論付けています。

要約(オリジナル)

This study conducts a thorough evaluation of text augmentation techniques across a variety of datasets and natural language processing (NLP) tasks to address the lack of reliable, generalized evidence for these methods. It examines the effectiveness of these techniques in augmenting training sets to improve performance in tasks such as topic classification, sentiment analysis, and offensive language detection. The research emphasizes not only the augmentation methods, but also the strategic order in which real and augmented instances are introduced during training. A major contribution is the development and evaluation of Modified Cyclical Curriculum Learning (MCCL) for augmented datasets, which represents a novel approach in the field. Results show that specific augmentation methods, especially when integrated with MCCL, significantly outperform traditional training approaches in NLP model performance. These results underscore the need for careful selection of augmentation techniques and sequencing strategies to optimize the balance between speed and quality improvement in various NLP tasks. The study concludes that the use of augmentation methods, especially in conjunction with MCCL, leads to improved results in various classification tasks, providing a foundation for future advances in text augmentation strategies in NLP.

arxiv情報

著者 Himmet Toprak Kesgin,Mehmet Fatih Amasyali
発行日 2024-02-14 12:41:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク