要約
テキスト分類タスクでは、ラベル付きデータが限られたショット シナリオがほとんどないことがよくあり、データ不足に対処することが重要です。
ミックスアップによるデータ拡張は、さまざまなテキスト分類タスクに効果的であることが示されています。
ただし、ほとんどのミックスアップ手法では、トレーニングのさまざまな段階での学習の難易度の変化が考慮されておらず、1 つのホットラベルで新しいサンプルが生成されるため、モデルの信頼度が過剰になります。
この論文では、テキスト分類におけるデータ拡張のための自己進化学習 (SE) ベースのミックスアップ アプローチを提案します。これにより、モデル トレーニング用に、より適応的でモデルに適した pesudo サンプルを生成できます。
SE はモデルの学習能力の変化に焦点を当てます。
モデルの信頼性を軽減するために、新しいインスタンス固有のラベル スムージング アプローチを導入します。これは、モデルの出力と元のサンプルの 1 つのホット ラベルを線形補間して、ラベルの混合のための新しいソフトを生成します。
実験分析を通じて、分類精度の向上に加えて、SE がモデルの汎化能力も強化することを実証しました。
要約(オリジナル)
Text classification tasks often encounter few shot scenarios with limited labeled data, and addressing data scarcity is crucial. Data augmentation with mixup has shown to be effective on various text classification tasks. However, most of the mixup methods do not consider the varying degree of learning difficulty in different stages of training and generate new samples with one hot labels, resulting in the model over confidence. In this paper, we propose a self evolution learning (SE) based mixup approach for data augmentation in text classification, which can generate more adaptive and model friendly pesudo samples for the model training. SE focuses on the variation of the model’s learning ability. To alleviate the model confidence, we introduce a novel instance specific label smoothing approach, which linearly interpolates the model’s output and one hot labels of the original samples to generate new soft for label mixing up. Through experimental analysis, in addition to improving classification accuracy, we demonstrate that SE also enhances the model’s generalize ability.
arxiv情報
著者 | Haoqi Zheng,Qihuang Zhong,Liang Ding,Zhiliang Tian,Xin Niu,Dongsheng Li,Dacheng Tao |
発行日 | 2023-11-27 15:10:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google