Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning

要約

LLM の命令の微調整には高品質のデータが必要であるという意見は一致していますが、それは何でしょうか?
LIMA (NeurIPS 2023) と AlpaGasus (ICLR 2024) は、手動キュレーションまたは品質スコアラーとして GPT-3.5-Turbo を使用して、このような高品質のサンプルを選択するための最先端の方法です。
標準データセットから最も長い応答を持つ 1,000 個の命令を選択するという非常に単純なベースライン (直感的により多くの学習可能な情報が含まれており、過剰適合が難しいもの) が、GPT-4 および PaLM-2 の判定結果によると、これらの洗練された手法よりも一貫して優れたパフォーマンスを発揮できることを示します。
、事実の知識をテストする Open LLM ベンチマークで競争力を維持しながら。
いくつかの LLM (Llama-2-7B、Llama-2-13B、Mistral-7B-v0.1) とデータセット (Alpaca-52k、Evol-Instruct-70k) についてこれを実証します。
さらに、このような長い命令を軽量に改良することで、微調整された LLM の能力をさらに向上させることができ、MT-Bench および AlpacaEval 2.0 で 2 番目に高いランクの Llama-2-7B ベースのモデルで競争力のある結果を得ることができます。
ただし、トレーニングは 1,000 個の例のみで、追加の嗜好データはありません。
また、モデルの徹底的な分析を実施して、モデルのパフォーマンスの向上が単に GPT-4 のより長い応答を優先することによるものではないことを確認します。
全体として、私たちの調査結果は、最も長い応答での微調整が、命令の微調整に関する作業のデフォルトのベースラインであるべきであることを示唆しています。
コードは https://github.com/tml-epfl/long-is-more-for-alignment で提供されています。

要約(オリジナル)

There is a consensus that instruction fine-tuning of LLMs requires high-quality data, but what are they? LIMA (NeurIPS 2023) and AlpaGasus (ICLR 2024) are state-of-the-art methods for selecting such high-quality examples, either via manual curation or using GPT-3.5-Turbo as a quality scorer. We show that the extremely simple baseline of selecting the 1,000 instructions with longest responses — that intuitively contain more learnable information and are harder to overfit — from standard datasets can consistently outperform these sophisticated methods according to GPT-4 and PaLM-2 as judges, while remaining competitive on the Open LLM benchmarks that test factual knowledge. We demonstrate this for several LLMs (Llama-2-7B, Llama-2-13B, Mistral-7B-v0.1) and datasets (Alpaca-52k, Evol-Instruct-70k). In addition, a lightweight refinement of such long instructions can further improve the abilities of the fine-tuned LLMs, and allows us to obtain competitive results on MT-Bench and the 2nd highest-ranked Llama-2-7B-based model on AlpacaEval 2.0, while training on only 1,000 examples and no extra preference data. We also conduct a thorough analysis of our models to ensure that their enhanced performance is not simply due to GPT-4’s preference for longer responses. Overall, our findings suggest that fine-tuning on the longest responses should be the default baseline for any work on instruction fine-tuning. We provide our code at https://github.com/tml-epfl/long-is-more-for-alignment.

arxiv情報

著者 Hao Zhao,Maksym Andriushchenko,Francesco Croce,Nicolas Flammarion
発行日 2024-06-04 17:20:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク