要約
大規模言語モデル (LLM) を調整するには、高品質の命令データが不可欠です。
Llama-3-Instruct などの一部のモデルはオープンウェイトを備えていますが、そのアライメントデータは非公開のままであり、これが AI の民主化を妨げています。
人件費が高く、事前に定義されたプロンプトの範囲が限られているため、既存のオープンソース データ作成方法が効果的に拡張できず、パブリック アライメント データセットの多様性と品質が制限される可能性があります。
アライメントされた LLM から直接抽出することで、高品質の命令データを大規模に合成することは可能ですか?
Magpie という大規模なアライメント データを生成する自己合成手法を紹介します。
私たちの重要な観察は、Llama-3-Instruct のようなアライメントされた LLM は、その自動回帰特性のおかげで、ユーザー メッセージ用に予約された位置までの左側のテンプレートのみを入力すると、ユーザー クエリを生成できるということです。
このメソッドを使用して Llama-3-Instruct を促し、400 万の命令とそれに対応する応答を生成します。
抽出されたデータの包括的な分析を実行し、300,000 個の高品質のインスタンスを選択します。
Magpie データを他の公共指導データセットと比較するために、各データセットで Llama-3-8B-Base を微調整し、微調整されたモデルのパフォーマンスを評価します。
私たちの結果は、Magpie で微調整されたモデルが、公式の Llama-3-8B-Instruct と同等のパフォーマンスを発揮することを示しています。Llama-3-8B-Instruct は、教師あり微調整 (SFT) とそれに続くフィードバック学習を通じて 1,000 万のデータ ポイントで強化されています。
また、SFT のみに Magpie を使用すると、SFT と好みの最適化 (UltraFeedback による直接の好みの最適化など) の両方に利用された以前の公開データセットのパフォーマンスを上回る可能性があることも示します。
この利点は、AlpacaEval、ArenaHard、WildBench などのアライメント ベンチマークで明らかです。
要約(オリジナル)
High-quality instruction data is critical for aligning large language models (LLMs). Although some models, such as Llama-3-Instruct, have open weights, their alignment data remain private, which hinders the democratization of AI. High human labor costs and a limited, predefined scope for prompting prevent existing open-source data creation methods from scaling effectively, potentially limiting the diversity and quality of public alignment datasets. Is it possible to synthesize high-quality instruction data at scale by extracting it directly from an aligned LLM? We present a self-synthesis method for generating large-scale alignment data named Magpie. Our key observation is that aligned LLMs like Llama-3-Instruct can generate a user query when we input only the left-side templates up to the position reserved for user messages, thanks to their auto-regressive nature. We use this method to prompt Llama-3-Instruct and generate 4 million instructions along with their corresponding responses. We perform a comprehensive analysis of the extracted data and select 300K high-quality instances. To compare Magpie data with other public instruction datasets, we fine-tune Llama-3-8B-Base with each dataset and evaluate the performance of the fine-tuned models. Our results indicate that in some tasks, models fine-tuned with Magpie perform comparably to the official Llama-3-8B-Instruct, despite the latter being enhanced with 10 million data points through supervised fine-tuning (SFT) and subsequent feedback learning. We also show that using Magpie solely for SFT can surpass the performance of previous public datasets utilized for both SFT and preference optimization, such as direct preference optimization with UltraFeedback. This advantage is evident on alignment benchmarks such as AlpacaEval, ArenaHard, and WildBench.
arxiv情報
著者 | Zhangchen Xu,Fengqing Jiang,Luyao Niu,Yuntian Deng,Radha Poovendran,Yejin Choi,Bill Yuchen Lin |
発行日 | 2024-06-12 17:52:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google