要約
事前トレーニングされた大規模言語モデル (LLM) は、現在、自然言語処理タスクの大部分を解決するための最先端のものです。
実際のアプリケーションの多くは、満足のいくパフォーマンス レベルに達するために依然として微調整が必要ですが、その多くはデータ量が少ない状況にあり、微調整が困難になっています。
これに対処するために、私たちは LLM2LLM を提案します。LLM2LLM は、教師 LLM を使用して、特定のタスクの微調整に使用できる追加データを増強することで小さなシード データセットを強化する、対象を絞った反復的なデータ増強戦略です。
LLM2LLM (1) 初期シード データに基づいてベースラインの生徒 LLM を微調整し、(2) モデルが間違っているデータ ポイントを評価および抽出し、(3) 教師 LLM を使用してこれらの間違ったデータ ポイントに基づいて合成データを生成します。
これらはトレーニング データに再度追加されます。
このアプローチでは、トレーニング中に LLM によって誤って予測されたデータ ポイントからの信号を増幅し、それらをデータセットに再統合して、LLM にとってより困難な例に焦点を当てます。
私たちの結果は、LLM2LLM が低データ領域での LLM のパフォーマンスを大幅に向上させ、従来の微調整ベースラインやその他のデータ拡張ベースラインの両方を上回るパフォーマンスを示していることを示しています。
LLM2LLM は、労働集約的なデータキュレーションへの依存を軽減し、よりスケーラブルでパフォーマンスの高い LLM ソリューションへの道を開き、データに制約のあるドメインやタスクに取り組むことができるようにします。
LLaMA2-7B の学生を使用した低データ領域での定期的な微調整と比較して、GSM8K データセットで最大 24.2%、CaseHOLD で 32.6%、SNIPS で 32.0%、TREC で 52.6%、SST-2 で 39.8% の改善を達成しました。
モデル。
要約(オリジナル)
Pretrained large language models (LLMs) are currently state-of-the-art for solving the vast majority of natural language processing tasks. While many real-world applications still require fine-tuning to reach satisfactory levels of performance, many of them are in the low-data regime, making fine-tuning challenging. To address this, we propose LLM2LLM, a targeted and iterative data augmentation strategy that uses a teacher LLM to enhance a small seed dataset by augmenting additional data that can be used for fine-tuning on a specific task. LLM2LLM (1) fine-tunes a baseline student LLM on the initial seed data, (2) evaluates and extracts data points that the model gets wrong, and (3) uses a teacher LLM to generate synthetic data based on these incorrect data points, which are then added back into the training data. This approach amplifies the signal from incorrectly predicted data points by the LLM during training and reintegrates them into the dataset to focus on more challenging examples for the LLM. Our results show that LLM2LLM significantly enhances the performance of LLMs in the low-data regime, outperforming both traditional fine-tuning and other data augmentation baselines. LLM2LLM reduces the dependence on labor-intensive data curation and paves the way for more scalable and performant LLM solutions, allowing us to tackle data-constrained domains and tasks. We achieve improvements up to 24.2% on the GSM8K dataset, 32.6% on CaseHOLD, 32.0% on SNIPS, 52.6% on TREC and 39.8% on SST-2 over regular fine-tuning in the low-data regime using a LLaMA2-7B student model.
arxiv情報
著者 | Nicholas Lee,Thanakul Wattanawong,Sehoon Kim,Karttikeya Mangalam,Sheng Shen,Gopala Anumanchipali,Michael W. Mahoney,Kurt Keutzer,Amir Gholami |
発行日 | 2024-03-22 08:57:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google