要約
言語モデルを人間の期待に合わせて調整すること(たとえば、役に立つか無害であるか)は、大規模な言語モデルにとって差し迫った課題となっています。
典型的な調整手順は、教師あり微調整と好みの学習で構成されます。
RLHF や DPO などのほとんどの嗜好学習方法は、ペアごとの嗜好データに依存しているため、人間のフィードバックが点単位であるシナリオへの対処が不十分であり、潜在的な情報損失や次善のパフォーマンスにつながります。
このギャップに対処するために、ポイントごとのフィードバックを効果的に活用するように設計された新しい好み学習方法であるポイントごとの直接嗜好最適化を導入します。
私たちの研究はまた、教師あり微調整とポイントごとの好みの学習の間の新たな関係を明らかにし、人間のデモンストレーションとポイントごとの好みとの調整を統合する単一ステップの方法である統一言語モデルのアライメントで頂点に達します。
バイナリまたは連続ラベルを使用した点ごとの選好データセットに関する広範な実験により、私たちの方法の有効性が検証されています。
私たちのコードと、無害性に関する高品質のデモンストレーション サンプルを含む新しいデータセットがリリースされました。
要約(オリジナル)
Aligning language models to human expectations, e.g., being helpful and harmless, has become a pressing challenge for large language models. A typical alignment procedure consists of supervised fine-tuning and preference learning. Most preference learning methods, such as RLHF and DPO, depend on pairwise preference data, which inadequately address scenarios where human feedback is point-wise, leading to potential information loss and suboptimal performance. Addressing this gap, we introduce Point-wise Direct Preference Optimization, a novel preference learning method designed to harness point-wise feedback effectively. Our work also uncovers a novel connection between supervised fine-tuning and point-wise preference learning, culminating in Unified Language Model Alignment, a single-step method that unifies the alignment with human demonstrations and point-wise preferences. Extensive experiments on point-wise preference datasets with binary or continuous labels validate the effectiveness of our methods. Our code and a new dataset with high-quality demonstration samples on harmlessness are released.
arxiv情報
著者 | Tianchi Cai,Xierui Song,Jiyan Jiang,Fei Teng,Jinjie Gu,Guannan Zhang |
発行日 | 2024-02-26 08:51:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google