Self-Boosting Large Language Models with Synthetic Preference Data

要約

人間の好みに合わせることで、大規模言語モデル (LLM) は、正直で無害で役立つ応答を生成する点で大幅に進歩しました。
ただし、高品質の嗜好データの収集は、特に LLM の継続的な改善にとって、リソースを大量に消費し、創造性を必要とするプロセスです。
モデルの調整に合成選好データを活用する自己ブースティング パラダイムである SynPO を紹介します。
SynPO は反復メカニズムを採用しており、セルフ プロンプト ジェネレーターがさまざまなプロンプトを作成し、応答改善機能がモデルの応答を段階的に改良します。
このアプローチは、LLM が自身の出力に対する生成的な報酬を自律的に学習するように訓練し、プロンプトや人間の好みの大規模な注釈の必要性を排除します。
SynPO を 4 回繰り返した後、Llama3-8B と Mistral-7B は指示に従う能力が大幅に向上し、AlpacaEval 2.0 と ArenaHard で 22.1% 以上の勝率向上を達成しました。
同時に、SynPO はさまざまなタスクにおける LLM の一般的なパフォーマンスを向上させ、よく知られた Open LLM リーダーボードで平均スコアが 3.2 から 5.0 増加することで実証されています。

要約(オリジナル)

Through alignment with human preferences, Large Language Models (LLMs) have advanced significantly in generating honest, harmless, and helpful responses. However, collecting high-quality preference data is a resource-intensive and creativity-demanding process, especially for the continual improvement of LLMs. We introduce SynPO, a self-boosting paradigm that leverages synthetic preference data for model alignment. SynPO employs an iterative mechanism wherein a self-prompt generator creates diverse prompts, and a response improver refines model responses progressively. This approach trains LLMs to autonomously learn the generative rewards for their own outputs and eliminates the need for large-scale annotation of prompts and human preferences. After four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements in instruction-following abilities, achieving over 22.1% win rate improvements on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score increase on the well-recognized Open LLM leaderboard.

arxiv情報

著者 Qingxiu Dong,Li Dong,Xingxing Zhang,Zhifang Sui,Furu Wei
発行日 2024-10-09 14:57:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク