要約
*データ合成* は、ラベル付きデータがほとんどない小規模なモデルをトレーニングするための有望な方法です。
データ合成の 1 つのアプローチは、大規模な言語モデルからの豊富な知識を活用して小規模なモデルの擬似トレーニング サンプルを合成することで、データ効率と計算効率の両方を同時に達成することを可能にします。
ただし、データ合成における重要な課題は、合成されたデータセットが「実際のタスク」のデータ分布との大きな分布の不一致に悩まされることが多いことです。
そこで、この論文では、*Synthesis Step by Step* (**S3**) を提案します。これは、合成されたデータセット上でトレーニングされた小さなモデルによって生じる誤差を、実際の小さなデータセット上で反復的に外挿することで、この分布ギャップを縮小するデータ合成フレームワークです。
-大規模な言語モデルを使用した世界検証データセット。
複数の NLP タスクに関する広範な実験により、私たちのアプローチが合成データセットと実際のデータの間のギャップを減らすことで小規模モデルのパフォーマンスを向上させ、その結果、いくつかのベースラインと比較して大幅な改善が見られたことがわかりました。ZeroGen と比較して 9.48%、ZeroGen と比較して 2.73% 向上しました。
GoldGen、人間が注釈を付けたデータでトレーニングされた小規模モデルと比較して最大 15.17% の改善。
要約(オリジナル)
*Data Synthesis* is a promising way to train a small model with very little labeled data. One approach for data synthesis is to leverage the rich knowledge from large language models to synthesize pseudo training examples for small models, making it possible to achieve both data and compute efficiency at the same time. However, a key challenge in data synthesis is that the synthesized dataset often suffers from a large distributional discrepancy from the *real task* data distribution. Thus, in this paper, we propose *Synthesis Step by Step* (**S3**), a data synthesis framework that shrinks this distribution gap by iteratively extrapolating the errors made by a small model trained on the synthesized dataset on a small real-world validation dataset using a large language model. Extensive experiments on multiple NLP tasks show that our approach improves the performance of a small model by reducing the gap between the synthetic dataset and the real data, resulting in significant improvement compared to several baselines: 9.48% improvement compared to ZeroGen and 2.73% compared to GoldGen, and at most 15.17% improvement compared to the small model trained on human-annotated data.
arxiv情報
著者 | Ruida Wang,Wangchunshu Zhou,Mrinmaya Sachan |
発行日 | 2023-10-20 17:14:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google