RankAug: Augmented data ranking for text classification

要約

データの生成と拡張に関する研究は、主に生成モデルの強化に焦点を当てており、合成データを評価する方法の探索と改良には顕著なギャップが残されています。
生成されたデータ フィルタリングのコンテキスト内には、特定の自然言語理解 (NLU) タスク、特に意図と感情の分類に焦点を当てたパフォーマンスに影響を与える可能性のあるテキスト類似性メトリクスがいくつかあります。
この研究では、語彙的および構文的多様性と意味が最も類似しているという観点から、上位の拡張テキストを検出してフィルタリングするテキスト ランキング アプローチである RankAug を提案します。
複数のデータセットに対して行われた実験を通じて、フィルタリング技術を賢明に選択することで、過小評価されたクラスの分類精度が最大 35% 大幅に向上する可能性があることを実証しました。

要約(オリジナル)

Research on data generation and augmentation has been focused majorly on enhancing generation models, leaving a notable gap in the exploration and refinement of methods for evaluating synthetic data. There are several text similarity metrics within the context of generated data filtering which can impact the performance of specific Natural Language Understanding (NLU) tasks, specifically focusing on intent and sentiment classification. In this study, we propose RankAug, a text-ranking approach that detects and filters out the top augmented texts in terms of being most similar in meaning with lexical and syntactical diversity. Through experiments conducted on multiple datasets, we demonstrate that the judicious selection of filtering techniques can yield a substantial improvement of up to 35% in classification accuracy for under-represented classes.

arxiv情報

著者 Tiasa Singha Roy,Priyam Basu
発行日 2023-11-08 08:47:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク