要約
さまざまな下流タスクに合わせて事前トレーニング済み LLM を微調整する命令は、目覚ましい成功を収めており、学者と実務家の両方の関心を集めています。
このように微調整された LLM が人間の好みに確実に一致するようにするために、RLHF や DPO などの技術が登場しました。
同時に、モデルのパラメータ数を減らすことへの関心も高まっています。
この作業では、OpenLLaMA 3Bv2 をベース モデルとして使用し、OpenBezoar ファミリのモデルを微調整するために使用されるレシピについて説明します。
このレシピでは: まず、LaMini-LM、WizardLM/Evol-Instruct (データブリックを使用) に基づく 3 つのスキームに基づいて、Falcon-40B モデルのオープンで商業的に非制限的な命令微調整バリアントを使用して、合成命令微調整データを生成します。
-dolly-15k (シード データセットとして) と Orca (Flan Collection をシード データセットとして) を使用し、GPT-4 を人間のプロキシとして使用してこれらの世代をフィルタリングします。
次に、コスト効率の高い QLoRA ベースの教師あり微調整を各スキームで順番に実行します。
結果として得られるチェックポイントは、DPO 損失を使用して最終チェックポイントを取得する前に、HH-RLHF データセットのサブセットを使用してさらに微調整され、分布のシフトが最小限に抑えられます。
評価は、LM Eval Harness タスク/メトリクスと、Claude 2.1 の「LLM-as-a-judge」フレームワークを使用した MT-Bench で行われ、最終チェックポイント「OpenBezoar-HH-RLHF-DPO」が確認されました。
」は、3B パラメーター スケールで多くのモデルよりも優れたパフォーマンスを示し、Huggingface Open LLM Leaderboard のカテゴリの 1 つでトップ モデルを上回っています。
https://huggingface.co/collections/SurgeGlobal/open の HuggingFace で生成されたデータセットとともに、「OpenBezoar-SFT」、「OpenBezoar-HH-RLHF-SFT」、「OpenBezoar-HH-RLHF-DPO」チェックポイントをリリースします。
bezoar-6620a24923e12127e9e2b9cc とコードベース (https://bitbucket.org/paladinanalytics/workspace/projects/OP)。
要約(オリジナル)
Instruction fine-tuning pretrained LLMs for diverse downstream tasks has demonstrated remarkable success and has captured the interest of both academics and practitioners. To ensure such fine-tuned LLMs align with human preferences, techniques such as RLHF and DPO have emerged. At the same time, there is increasing interest in smaller parameter counts for models. In this work, using OpenLLaMA 3Bv2 as a base model, we describe the recipe used to fine-tune the OpenBezoar family of models. In this recipe: We first generate synthetic instruction fine-tuning data using an open and commercially non-restrictive instruction fine-tuned variant of the Falcon-40B model under three schemes based on: LaMini-LM, WizardLM/Evol-Instruct (with databricks-dolly-15k as a seed dataset) and Orca (with the Flan Collection as a seed dataset), then filter these generations using GPT-4 as a human proxy. We then perform cost-effective QLoRA-based supervised fine-tuning sequentially with each scheme. The resulting checkpoint is further fine-tuned with a subset of the HH-RLHF dataset to minimize distribution shift prior to using the DPO loss to obtain the final checkpoint. Evaluation is done with the LM Eval Harness tasks/metrics as well as on MT-Bench using the ‘LLM-as-a-judge’ framework with Claude 2.1, with the finding that the final checkpoint, ‘OpenBezoar-HH-RLHF-DPO’, demonstrates superior performance over many models at the 3B parameter scale, even outperforming the top model in one of the categories on the Huggingface Open LLM Leaderboard. We release ‘OpenBezoar-SFT’, ‘OpenBezoar-HH-RLHF-SFT’, ‘OpenBezoar-HH-RLHF-DPO’ checkpoints, alongside our generated datasets on HuggingFace at https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc and our codebase at https://bitbucket.org/paladinanalytics/workspace/projects/OP.
arxiv情報
著者 | Chandeepa Dissanayake,Lahiru Lowe,Sachith Gunasekara,Yasiru Ratnayake |
発行日 | 2024-04-18 13:57:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google