A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques

要約

大規模な言語モデルは、最初に数兆のトークンで事前トレーニングされ、次に命令が調整されるか、特定の設定に合わせて調整されます。
事前トレーニングは必要なコンピューティングのためにほとんどの研究者にとって依然として手の届かないものですが、LoRA や QLoRA などのパラメーター効率の高い手法のおかげで、微調整は手頃な価格で行えるようになりました。
アライメントは、データの量と品質、アライメント方法、アダプターのランクなど、関連する多くの要因の影響を受けることが知られています。
ただし、下流のパフォーマンスに対するそれらの影響に関する広範な研究はまだ行われていません。
このギャップに対処するために、(i) アライメント データセット (HH-RLHF および BeaverTails)、(ii) アライメント技術 (SFT および DPO)、および
(iii) モデル (LLaMA-1、Vicuna-v1.3、Mistral-7b、および Mistral-7b-Instruct)。
300 を超える実験に及ぶ広範なセットアップにより、一貫した傾向と予期せぬ発見が明らかになります。
私たちは、より有益なデータが設定の調整にどのように役立つか、監視付き微調整が設定の最適化よりも優れているケース、および明確な設定に調整することで下流タスクのパフォーマンスがどのように向上するかを観察します。
私たちは詳細な分析を通じて、研究者がより効果的にパラメータ効率の高い LLM アライメントを実行できるようにするための重要なガイドラインを提案しました。

要約(オリジナル)

Large language models are first pre-trained on trillions of tokens and then instruction-tuned or aligned to specific preferences. While pre-training remains out of reach for most researchers due to the compute required, fine-tuning has become affordable thanks to parameter-efficient methods such as LoRA and QLoRA. Alignment is known to be sensitive to the many factors involved, including the quantity and quality of data, the alignment method, and the adapter rank. However, there has not yet been an extensive study of their effect on downstream performance. To address this gap, we conduct an in-depth investigation of the impact of popular choices for three crucial axes: (i) the alignment dataset (HH-RLHF and BeaverTails), (ii) the alignment technique (SFT and DPO), and (iii) the model (LLaMA-1, Vicuna-v1.3, Mistral-7b, and Mistral-7b-Instruct). Our extensive setup spanning over 300 experiments reveals consistent trends and unexpected findings. We observe how more informative data helps with preference alignment, cases where supervised fine-tuning outperforms preference optimization, and how aligning to a distinct preference boosts performance on downstream tasks. Through our in-depth analyses, we put forward key guidelines to help researchers perform more effective parameter-efficient LLM alignment.

arxiv情報

著者 Megh Thakkar,Quentin Fournier,Matthew D Riemer,Pin-Yu Chen,Amal Zouaq,Payel Das,Sarath Chandar
発行日 2024-06-07 12:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク