AlpaGasus: Training A Better Alpaca with Fewer Data

要約

大規模言語モデル (LLM) は、教師付き命令/応答データの命令微調整 (IFT) を通じて命令追従機能を強化します。
しかし、広く使用されている IFT データセット (Alpaca の 52k データなど) には、驚くべきことに、誤った応答や無関係な応答を含む低品質のインスタンスが多数含まれており、誤解を招き、IFT にとって有害で​​す。
この論文では、強力な LLM (ChatGPT など) を使用して低品質データを自動的に識別し、フィルタリングして除外する、シンプルで効果的なデータ選択戦略を提案します。
この目的を達成するために、52,000 の Alpaca データからフィルタリングされた 9,000 の高品質データのみに基づいて微調整された AlpaGasus を導入します。
AlpaGasus は、複数のテスト セットおよび管理された人間の評価における GPT-4 による評価で、オリジナルの Alpaca を大幅に上回っています。
その 13B バリアントは、テスト タスクにおける教師 LLM (つまり、52k データを生成する Text-Davinci-003) の $>90\%$ のパフォーマンスと一致します。
また、5.7 倍高速なトレーニングを提供し、7B バリアントのトレーニング時間を 80 分から (アルパカの場合) 14 分に短縮します。
さらに、この実験では、さまざまなデータセット、ベースモデル、LLM フィルターにわたる私たちの方法の有効性が証明されています。
全体として、AlpaGasus は、一般に命令チューニング データに適用できる新しいデータ中心の IFT パラダイムを実証し、より高速なトレーニングとより優れた命令追従モデルを実現します。
私たちのプロジェクト ページは https://lichang-chen.github.io/AlpaGasus/ から入手できます。

要約(オリジナル)

Large language models (LLMs) strengthen instruction-following capability through instruction-finetuning (IFT) on supervised instruction/response data. However, widely used IFT datasets (e.g., Alpaca’s 52k data) surprisingly contain many low-quality instances with incorrect or irrelevant responses, which are misleading and detrimental to IFT. In this paper, we propose a simple and effective data selection strategy that automatically identifies and filters out low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce AlpaGasus, which is finetuned on only 9k high-quality data filtered from the 52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as evaluated by GPT-4 on multiple test sets and the controlled human evaluation. Its 13B variant matches $>90\%$ performance of its teacher LLM (i.e., Text-Davinci-003 generating the 52k data) on test tasks. It also provides 5.7x faster training, reducing the training time for a 7B variant from 80 minutes (for Alpaca) to 14 minutes. Moreover, the experiments prove the efficacy of our method across diverse datasets, base models, and LLM filters. Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be generally applied to instruction-tuning data, leading to faster training and better instruction-following models. Our project page is available at: https://lichang-chen.github.io/AlpaGasus/

arxiv情報

著者 Lichang Chen,Shiyang Li,Jun Yan,Hai Wang,Kalpa Gunaratna,Vikas Yadav,Zheng Tang,Vijay Srinivasan,Tianyi Zhou,Heng Huang,Hongxia Jin
発行日 2024-02-13 18:37:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク