Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning

要約

多様で高品質の SFT データを作成するための自動化アプローチである Instruct-SkillMix を紹介します。
Instruct-SkillMix パイプラインには 2 つのステージが含まれており、それぞれが既存の強力な LLM を利用します。(1) スキル抽出: LLM を使用して、既存のデータセットから、またはモデルに直接プロンプトを表示することによって、指示に従うためのコア「スキル」を抽出します。
(2) データ生成: 強力な LLM を使用して、ランダムに選択されたこれらのスキルのペアを示す (命令、応答) データを生成します。
ここでは、ランダムなスキルの組み合わせを使用することで、多様性と難易度を高めています。
Instruct-SkillMix から生成されたデータに対するバニラ SFT (つまり、PPO、DPO、または RL メソッドなし) は、AlpacaEval 2.0、MT-Bench、WildBench などのベンチマークに従って命令で大幅な向上をもたらします。
わずか $4$K の例で、LLaMA-3-8B-Base は AlpacaEval 2.0 で長さ制御の勝率 42.76% を達成しました。
私たちの知る限り、これは SFT (RL メソッドなし) のみを実行したすべてのモデルの中で最先端のパフォーマンスを達成しており、Claude 3 Opus や LLaMA-3.1-405B-Instruct などの独自モデルと競合します。
アブレーション研究はまた、単純なクラウドソーシングによるオープンな命令調整データセットの作成が難しいことが判明した理由について、もっともらしい理由を示唆しています。
Instruct-SkillMix サンプルの $20\%$ に低品質の回答 (‘shirkers’) が導入されると、パフォーマンスが急激に低下し、場合によっては壊滅的な影響を及ぼします。
Instruct-SkillMix パイプラインは柔軟性があり、他の設定にも適応できます。

要約(オリジナル)

We introduce Instruct-SkillMix, an automated approach for creating diverse, high quality SFT data. The Instruct-SkillMix pipeline involves two stages, each leveraging an existing powerful LLM: (1) Skill extraction: uses the LLM to extract core ‘skills’ for instruction-following, either from existing datasets, or by directly prompting the model; (2) Data generation: uses the powerful LLM to generate (instruction, response) data that exhibit a randomly chosen pair of these skills. Here, the use of random skill combinations promotes diversity and difficulty. Vanilla SFT (i.e., no PPO, DPO, or RL methods) on data generated from Instruct-SkillMix leads to strong gains on instruction following benchmarks such as AlpacaEval 2.0, MT-Bench, and WildBench. With just $4$K examples, LLaMA-3-8B-Base achieves 42.76% length-controlled win rate on AlpacaEval 2.0. To our knowledge, this achieves state-of-the-art performance among all models that have only undergone SFT (no RL methods) and competes with proprietary models such as Claude 3 Opus and LLaMA-3.1-405B-Instruct. Ablation studies also suggest plausible reasons for why creating open instruction-tuning datasets via naive crowd-sourcing has proved difficult. Introducing low quality answers (‘shirkers’) in $20\%$ of Instruct-SkillMix examples causes performance to plummet, sometimes catastrophically. The Instruct-SkillMix pipeline is flexible and is adaptable to other settings.

arxiv情報

著者 Simran Kaur,Simon Park,Anirudh Goyal,Sanjeev Arora
発行日 2024-09-09 16:41:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク