Rethink the Effectiveness of Text Data Augmentation: An Empirical Analysis

要約

近年、言語モデル (LM) は、自然言語処理 (NLP) の分野の進歩において目覚ましい進歩を遂げています。
ただし、データ拡張 (DA) 技術がこれらの LM の微調整 (FT) パフォーマンスに及ぼす影響については、現在も議論が続いています。
この研究では、単文タスクと文ペアのタスクをカバーする、分類と回帰タイプを含む 7 つの多様な NLP タスクにわたって、逆翻訳と活用した 3 つの異なる FT 手法の有効性を評価します。
DA は LM の FT パフォーマンスの向上に寄与しないという以前の仮定に反して、私たちの調査結果は、拡張データに対する事前トレーニングを継続することで、下流タスクの FT パフォーマンスを効果的に向上させることができることを明らかにしました。
最も好ましいケースでは、継続的な事前トレーニングにより、数ショット学習設定で FT のパフォーマンスが 10% 以上向上します。
私たちの発見は、LM のパフォーマンスを強化するための強力なツールとしての DA の可能性を強調しています。

要約(オリジナル)

In recent years, language models (LMs) have made remarkable progress in advancing the field of natural language processing (NLP). However, the impact of data augmentation (DA) techniques on the fine-tuning (FT) performance of these LMs has been a topic of ongoing debate. In this study, we evaluate the effectiveness of three different FT methods in conjugation with back-translation across an array of 7 diverse NLP tasks, including classification and regression types, covering single-sentence and sentence-pair tasks. Contrary to prior assumptions that DA does not contribute to the enhancement of LMs’ FT performance, our findings reveal that continued pre-training on augmented data can effectively improve the FT performance of the downstream tasks. In the most favourable case, continued pre-training improves the performance of FT by more than 10% in the few-shot learning setting. Our finding highlights the potential of DA as a powerful tool for bolstering LMs’ performance.

arxiv情報

著者 Zhengxiang Shi,Aldo Lipani
発行日 2023-06-13 10:14:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク