要約
命令チューニングは、より優れた命令追従機能とタスク適応機能を実現するために大規模言語モデル (LLM) にとって重要ですが、その成功はトレーニング データの品質に大きく依存します。
最近の手法の多くはデータ品質の向上に重点を置いていますが、微調整されている学生モデルとのデータの互換性を見落とすことがよくあります。
この論文では、既存のデータ品質を向上させるための教師 LLM のリフレクションと内省と、生徒 LLM のデータ選択機能を相乗して、既存の指導チューニング データを自動的に調整する新しいパラダイムである選択的リフレクション チューニングを紹介します。
この教師と生徒のコラボレーションにより、高品質で生徒と互換性のある指示と応答のペアが生成され、その結果、サンプル効率の高い指導チューニングと優れたパフォーマンスの LLM が実現します。
選択的反射チューニングは、一般に、まったく新しいデータを収集せずに LLM の微調整と自己改善を改善するデータの拡張と合成です。
私たちはこの方法を Alpaca および WizardLM データに適用し、より強力で最高レベルの 7B および 13B LLM を実現します。
私たちのコード、モデル、データは https://github.com/tianyi-lab/Reflection_Tuning でリリースされます。
要約(オリジナル)
Instruction tuning is critical to large language models (LLMs) for achieving better instruction following and task adaptation capabilities but its success heavily relies on the training data quality. Many recent methods focus on improving the data quality but often overlook the compatibility of the data with the student model being finetuned. This paper introduces Selective Reflection-Tuning, a novel paradigm that synergizes a teacher LLM’s reflection and introspection for improving existing data quality with the data selection capability of the student LLM, to automatically refine existing instruction-tuning data. This teacher-student collaboration produces high-quality and student-compatible instruction-response pairs, resulting in sample-efficient instruction tuning and LLMs of superior performance. Selective Reflection-Tuning is a data augmentation and synthesis that generally improves LLM finetuning and self-improvement without collecting brand-new data. We apply our method to Alpaca and WizardLM data and achieve much stronger and top-tier 7B and 13B LLMs. Our codes, models, and data will be released at https://github.com/tianyi-lab/Reflection_Tuning.
arxiv情報
著者 | Ming Li,Lichang Chen,Jiuhai Chen,Shwai He,Jiuxiang Gu,Tianyi Zhou |
発行日 | 2024-02-15 17:06:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google