要約
データ拡張には、特定のデータセット内のサンプルに似た合成サンプルの生成が含まれます。
高品質のデータが不足しているリソースが限られた分野では、拡張はトレーニング データの量を増やす上で重要な役割を果たします。
このペーパーでは、事前トレーニングされたモデルとルールベースのメソッドの両方を使用してテキストの新しいバリアントを作成する Bangla Text Data Augmentation (BDA) フレームワークを紹介します。
新しいテキストが元のテキストと同じ意味を保ちながら、使用される単語に多様性を加えることを保証するためのフィルタリング プロセスが含まれています。
私たちは、バングラ語テキスト分類タスクにおけるフレームワークの有効性の包括的な評価を実施します。
私たちのフレームワークは、5 つの異なるデータセットにわたって F1 スコアの大幅な向上を達成し、トレーニング データセットの 50% のみを利用しながら、データの 100% でトレーニングされたモデルと同等のパフォーマンスを実現しました。
さらに、トレーニング データを段階的に削減し、BDA を通じてデータを増強することで、データ不足の影響を調査し、その結果、F1 スコアが顕著に向上しました。
この調査では、BDA のパフォーマンスを徹底的に調査し、最適な結果を得るための重要な要素を特定し、詳細な分析を通じてその限界に対処します。
要約(オリジナル)
Data augmentation involves generating synthetic samples that resemble those in a given dataset. In resource-limited fields where high-quality data is scarce, augmentation plays a crucial role in increasing the volume of training data. This paper introduces a Bangla Text Data Augmentation (BDA) Framework that uses both pre-trained models and rule-based methods to create new variants of the text. A filtering process is included to ensure that the new text keeps the same meaning as the original while also adding variety in the words used. We conduct a comprehensive evaluation of the framework’s effectiveness in Bangla text classification tasks. Our framework achieved significant improvement in F1 scores across five distinct datasets, delivering performance equivalent to models trained on 100% of the data while utilizing only 50% of the training dataset. Additionally, we explore the impact of data scarcity by progressively reducing the training data and augmenting it through BDA, resulting in notable F1 score enhancements. The study offers a thorough examination of BDA’s performance, identifying key factors for optimal results and addressing its limitations through detailed analysis.
arxiv情報
著者 | Md. Tariquzzaman,Audwit Nafi Anam,Naimul Haque,Mohsinul Kabir,Hasan Mahmud,Md Kamrul Hasan |
発行日 | 2024-12-26 18:50:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google