AlpaGasus: Training A Better Alpaca with Fewer Data

要約

大規模言語モデル (LLM) は、教師付き命令/応答データの命令微調整 (IFT) を通じて命令追従機能を獲得します。
しかし、広く使用されている IFT データセット (Alpaca の 52k データなど) には、驚くべきことに、誤った応答や無関係な応答を含む低品質のインスタンスが多数含まれており、誤解を招き、IFT にとって有害で​​す。
この論文では、強力な LLM (ChatGPT など) を使用して低品質データを自動的に識別して削除する、シンプルで効果的なデータ選択戦略を提案します。
この目的を達成するために、52,000 の Alpaca データからフィルタリングされた 9,000 の高品質データのみに基づいて微調整された AlpaGasus を導入します。
AlpaGasus は、複数のテスト セットで GPT-4 によって評価されたオリジナルの Alpaca を大幅に上回っており、その 13B バリアントは、テスト タスクで教師 LLM (つまり Text-Davinci-003) の $>90\%$ のパフォーマンスに匹敵します。
また、5.7 倍高速なトレーニングを提供し、7B バリアントのトレーニング時間を 80 分から (Alpaca の場合) 14 分に短縮します \footnote{Alpaca(7B) と同じエポック数で、より少ないデータに対して IFT を適用します。4 を使用します。
$\times$NVIDIA A100 (80GB) GPU、および元の Alpaca 設定とハイパーパラメーターに従います。}
全体として、AlpaGasus は、一般に命令チューニング データに適用できる新しいデータ中心の IFT パラダイムを実証し、より高速なトレーニングとより優れた命令追従モデルを実現します。
私たちのプロジェクト ページは \url{https://lichang-chen.github.io/AlpaGasus/} から入手できます。

要約(オリジナル)

Large language models~(LLMs) obtain instruction-following capability through instruction-finetuning (IFT) on supervised instruction/response data. However, widely used IFT datasets (e.g., Alpaca’s 52k data) surprisingly contain many low-quality instances with incorrect or irrelevant responses, which are misleading and detrimental to IFT. In this paper, we propose a simple and effective data selection strategy that automatically identifies and removes low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce AlpaGasus, which is finetuned on only 9k high-quality data filtered from the 52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as evaluated by GPT-4 on multiple test sets and its 13B variant matches $>90\%$ performance of its teacher LLM (i.e., Text-Davinci-003) on test tasks. It also provides 5.7x faster training, reducing the training time for a 7B variant from 80 minutes (for Alpaca) to 14 minutes \footnote{We apply IFT for the same number of epochs as Alpaca(7B) but on fewer data, using 4$\times$NVIDIA A100 (80GB) GPUs and following the original Alpaca setting and hyperparameters.}. Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be generally applied to instruction-tuning data, leading to faster training and better instruction-following models. Our project page is available at: \url{https://lichang-chen.github.io/AlpaGasus/}.

arxiv情報

著者 Lichang Chen,Shiyang Li,Jun Yan,Hai Wang,Kalpa Gunaratna,Vikas Yadav,Zheng Tang,Vijay Srinivasan,Tianyi Zhou,Heng Huang,Hongxia Jin
発行日 2023-07-17 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク