Aligning Large Language Models via Self-Steering Optimization

要約

自動アライメントは、人間の介入を最小限に抑えたアライメント システムを開発します。
自動調整の鍵は、人間による注釈なしで好みを学習するための学習可能で正確な好み信号を提供することにあります。
この論文では、反復トレーニング中に事前定義された原則に基づいて高品質の優先信号を自律的に生成し、手動による注釈の必要性を排除するアルゴリズムであるセルフ ステアリング最適化 ($SSO$) を紹介します。
$SSO$ は、現在のポリシー モデルの学習能力に合わせて両方の応答をオンポリシーに保ちながら、選択された応答と拒否された応答の間に一貫したギャップを確保することでシグナルの精度を維持します。
$SSO$ は、ポリシー モデルのオンラインおよびオフライン トレーニングに利益をもたらすだけでなく、報酬モデルのトレーニングを強化することもできます。
Qwen2 と Llama3.1 という 2 つの基礎モデルを使用して $SSO$ の有効性を検証し、反復トレーニングを通じて正確なオンポリシー設定シグナルを提供することを示しています。
手動の注釈や外部モデルを使用しない場合、$SSO$ は 6 つの主観的または客観的なベンチマーク全体で大幅なパフォーマンスの向上につながります。
さらに、$SSO$ によって生成された嗜好データにより、Rewardbench の報酬モデルのパフォーマンスが大幅に向上しました。
私たちの取り組みは、プリファレンスの最適化に対するスケーラブルなアプローチを提示し、より効率的かつ効果的な自動調整への道を切り開きます。

要約(オリジナル)

Automated alignment develops alignment systems with minimal human intervention. The key to automated alignment lies in providing learnable and accurate preference signals for preference learning without human annotation. In this paper, we introduce Self-Steering Optimization ($SSO$), an algorithm that autonomously generates high-quality preference signals based on predefined principles during iterative training, eliminating the need for manual annotation. $SSO$ maintains the accuracy of signals by ensuring a consistent gap between chosen and rejected responses while keeping them both on-policy to suit the current policy model’s learning capacity. $SSO$ can benefit the online and offline training of the policy model, as well as enhance the training of reward models. We validate the effectiveness of $SSO$ with two foundation models, Qwen2 and Llama3.1, indicating that it provides accurate, on-policy preference signals throughout iterative training. Without any manual annotation or external models, $SSO$ leads to significant performance improvements across six subjective or objective benchmarks. Besides, the preference data generated by $SSO$ significantly enhanced the performance of the reward model on Rewardbench. Our work presents a scalable approach to preference optimization, paving the way for more efficient and effective automated alignment.

arxiv情報

著者 Hao Xiang,Bowen Yu,Hongyu Lin,Keming Lu,Yaojie Lu,Xianpei Han,Le Sun,Jingren Zhou,Junyang Lin
発行日 2024-10-22 16:04:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク