Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

要約

教師ありファインチューニング (SFT) を通じて人間が注釈を付けたデータの力を活用することは、大規模言語モデル (LLM) を進化させる上で極めて重要です。
このペーパーでは、人間が追加で注釈を付けたデータを取得することなく、弱い LLM から強力な LLM を成長させる可能性について詳しく説明します。
我々は、教師付き微調整モデルから開始する Self-Play 微調整 (SPIN) と呼ばれる新しい微調整方法を提案します。
SPIN の中心にはセルフプレイ メカニズムがあり、LLM はそれ自体のインスタンスと対戦することで機能を磨きます。
より具体的には、LLM は以前の反復から独自のトレーニング データを生成し、これらの自己生成された応答と人間が注釈を付けたデータから取得した応答を識別することでポリシーを洗練します。
私たちの手法は、LLM を初期のモデルから強力なモデルに段階的に高め、SFT 用の人による注釈付きデモンストレーション データの可能性を最大限に引き出します。
理論的には、LLM ポリシーがターゲット データ分布と一致する場合にのみ、メソッドのトレーニング目的関数に対する大域最適が達成されることが証明されます。
経験的に、HuggingFace Open LLM Leaderboard、MT-Bench、Big-Bench のデータセットを含むいくつかのベンチマーク データセットでメソッドを評価しました。
私たちの結果は、SPIN がさまざまなベンチマークにわたって LLM のパフォーマンスを大幅に向上させ、追加の GPT-4 選好データを追加した直接選好最適化 (DPO) によってトレーニングされたモデルよりも優れたパフォーマンスを発揮できることを示しています。
これにより、セルフプレイの可能性が明らかになり、熟練した対戦相手を必要とせずに、LLM で人間レベルのパフォーマンスを達成できるようになります。

要約(オリジナル)

Harnessing the power of human-annotated data through Supervised Fine-Tuning (SFT) is pivotal for advancing Large Language Models (LLMs). In this paper, we delve into the prospect of growing a strong LLM out of a weak one without the need for acquiring additional human-annotated data. We propose a new fine-tuning method called Self-Play fIne-tuNing (SPIN), which starts from a supervised fine-tuned model. At the heart of SPIN lies a self-play mechanism, where the LLM refines its capability by playing against instances of itself. More specifically, the LLM generates its own training data from its previous iterations, refining its policy by discerning these self-generated responses from those obtained from human-annotated data. Our method progressively elevates the LLM from a nascent model to a formidable one, unlocking the full potential of human-annotated demonstration data for SFT. Theoretically, we prove that the global optimum to the training objective function of our method is achieved only when the LLM policy aligns with the target data distribution. Empirically, we evaluate our method on several benchmark datasets including the HuggingFace Open LLM Leaderboard, MT-Bench, and datasets from Big-Bench. Our results show that SPIN can significantly improve the LLM’s performance across a variety of benchmarks and even outperform models trained through direct preference optimization (DPO) supplemented with extra GPT-4 preference data. This sheds light on the promise of self-play, enabling the achievement of human-level performance in LLMs without the need for expert opponents.

arxiv情報

著者 Zixiang Chen,Yihe Deng,Huizhuo Yuan,Kaixuan Ji,Quanquan Gu
発行日 2024-01-02 18:53:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク