TS-Align: A Teacher-Student Collaborative Framework for Scalable Iterative Finetuning of Large Language Models

要約

大規模言語モデル (LLM) を調整するための主流のアプローチは、特にモデルが定期的な更新を必要とする場合、人間の好みのデータに大きく依存します。
LLM の反復調整の標準プロセスには、更新ごとに新しい人間によるフィードバックを収集することが含まれます。
ただし、データ収集プロセスにはコストがかかり、規模を拡大するのが困難です。
この問題に対処するために、出力から自動的にマイニングされたペアごとのフィードバック データを使用してポリシー モデルを微調整する「TS-Align」フレームワークを導入します。
この自動マイニング プロセスは、大規模な教師モデルと小規模な学生モデルの連携を通じて効率的に実行されます。
ポリシーの微調整プロセスは、私たちが提案する教師と生徒の協力フレームワーク内でポリシーの世代を使用して反復的に繰り返すことができます。
広範な実験を通じて、最終的に調整されたポリシーは、7 つの会話または指示に従うデータセット全体で 69.7% の平均勝率を達成し、基本ポリシー モデルを上回っていることを実証しました。
さらに、教師のランキング機能がパイプラインを通じて効果的に生徒に抽出され、その結果、ポリシーモデルの調整のための小規模だが効果的な報酬モデルが得られることを示します。

要約(オリジナル)

Mainstream approaches to aligning large language models (LLMs) heavily rely on human preference data, particularly when models require periodic updates. The standard process for iterative alignment of LLMs involves collecting new human feedback for each update. However, the data collection process is costly and challenging to scale. To address this issue, we introduce the ‘TS-Align’ framework, which fine-tunes a policy model using pairwise feedback data automatically mined from its outputs. This automatic mining process is efficiently accomplished through the collaboration between a large-scale teacher model and a small-scale student model. The policy fine-tuning process can be iteratively repeated using on-policy generations within our proposed teacher-student collaborative framework. Through extensive experiments, we demonstrate that our final aligned policy outperforms the base policy model with an average win rate of 69.7% across seven conversational or instruction-following datasets. Furthermore, we show that the ranking capability of the teacher is effectively distilled into the student through our pipeline, resulting in a small-scale yet effective reward model for policy model alignment.

arxiv情報

著者 Chen Zhang,Chengguang Tang,Dading Chong,Ke Shi,Guohua Tang,Feng Jiang,Haizhou Li
発行日 2024-05-30 16:17:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク