Instruction Tuning with GPT-4

要約

タイトル:「GPT-4を用いたインストラクションチューニング」

要約:

– 過去の研究で、機械生成されたインストラクションに従うデータを用いて、大規模言語モデル(LLM)をfine-tuningすることで、新しいタスクにおいて驚くべきゼロショット能力を発揮できることが示されている。
– 本論文では、GPT-4を使用して、LLMのfine-tuningに必要なインストラクションフォローのデータを生成する取り組みを行なった。
– 早期の実験により、GPT-4によって生成された52Kの英語と中国語に従うインストラクションデータによって、従来の最先端モデルが生成したインストラクションフォローデータよりも、新しいタスクに対する優れたゼロショット性能が得られることが示された。
– また、GPT-4からフィードバックや比較データを収集することで、総合的な評価と報酬モデルのトレーニングが可能になる。
– GPT-4で生成されたデータおよびコードベースは、公開されている。

要約(オリジナル)

Prior work has shown that finetuning large language models (LLMs) using machine-generated instruction-following data enables such models to achieve remarkable zero-shot capabilities on new tasks, and no human-written instructions are needed. In this paper, we present the first attempt to use GPT-4 to generate instruction-following data for LLM finetuning. Our early experiments on instruction-tuned LLaMA models show that the 52K English and Chinese instruction-following data generated by GPT-4 leads to superior zero-shot performance on new tasks to the instruction-following data generated by previous state-of-the-art models. We also collect feedback and comparison data from GPT-4 to enable a comprehensive evaluation and reward model training. We make our data generated using GPT-4 as well as our codebase publicly available.

arxiv情報

著者 Baolin Peng,Chunyuan Li,Pengcheng He,Michel Galley,Jianfeng Gao
発行日 2023-04-06 17:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク