MixPro: Simple yet Effective Data Augmentation for Prompt-based Learning

要約

【タイトル】MixPro: Prompt-based Learningのためのシンプルで効果的なデータ拡張法

【要約】

– Prompt-based Learningはアップストリームタスクを元のインプットとテンプレートを組み合わせたクローズ問題に再編成するテクニック。Few-shot learningに特に有用で、限られたデータでモデルを訓練するために使用される。
– Few-shot prompt-based learningで使用されるテンプレートとテキストは限定的で、パフォーマンス向上の余地がある。
– 既存のモデルアンサンブルを使用する方法ではモデル効率が制約されるため、これらの問題を解決するために、トークンレベル、文レベル、エポックレベルのMixup戦略を使用したMixProというデータ拡張法を提案する。
– 5つのfew-shotデータセットで実験を行い、結果はMixProが他のデータ拡張法に比べ、モデルパフォーマンスを平均して5.08%改善することを示した。

要約(オリジナル)

Prompt-based learning reformulates downstream tasks as cloze problems by combining the original input with a template. This technique is particularly useful in few-shot learning, where a model is trained on a limited amount of data. However, the limited templates and text used in few-shot prompt-based learning still leave significant room for performance improvement. Additionally, existing methods using model ensembles can constrain the model efficiency. To address these issues, we propose an augmentation method called MixPro, which augments both the vanilla input text and the templates through token-level, sentence-level, and epoch-level Mixup strategies. We conduct experiments on five few-shot datasets, and the results show that MixPro outperforms other augmentation baselines, improving model performance by an average of 5.08% compared to before augmentation.

arxiv情報

著者 Bohan Li,Longxu Dou,Yutai Hou,Yunlong Feng,Honglin Mu,Wanxiang Che
発行日 2023-04-19 03:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク