Data-Centric Human Preference Optimization with Rationales

要約

人間のフィードバックからの強化学習は、言語モデルを人間の好みに合わせて調整する上で重要な役割を果たします。従来は、特定のコンテキスト内での応答のペアまたはセット間の比較によって表現されていました。
多くの研究では、そのようなデータからの学習を最適化するためにアルゴリズム技術が強化されていますが、この研究では、データ中心のアプローチを通じて優先学習の改善に焦点を移しています。
具体的には、選択の背後にある理由を説明する機械生成の理論的根拠を使用して、既存の嗜好データセットを強化することを提案します。
私たちは、現在の好みの学習方法を理論的根拠の情報で強化するための、シンプルで原則に基づいたフレームワークを開発します。
私たちの包括的な分析は、論理的根拠によって学習効率がどのように向上するかを明らかにしています。
広範な実験により、論理的根拠を強化した嗜好学習には複数の利点があることが明らかになりました。データ効率が向上し、よりパフォーマンスの高いモデルへの収束が加速され、冗長バイアスと幻覚が軽減されます。
さらに、このフレームワークは、さまざまな設定最適化アルゴリズムと統合できるほど多用途です。
全体として、私たちの調査結果は、好み学習のためのデータ設計を再考する可能性を強調しており、自由に利用できる機械生成の理論的根拠であっても、複数の側面にわたってパフォーマンスを大幅に向上させることができることを実証しています。
コード リポジトリは https://github.com/reds-lab/preference-learning-with-rationales から入手できます。

要約(オリジナル)

Reinforcement learning from human feedback plays a crucial role in aligning language models towards human preferences, traditionally represented through comparisons between pairs or sets of responses within a given context. While many studies have enhanced algorithmic techniques to optimize learning from such data, this work shifts focus to improving preference learning through a data-centric approach. Specifically, we propose enriching existing preference datasets with machine-generated rationales that explain the reasons behind choices. We develop a simple and principled framework to augment current preference learning methods with rationale information. Our comprehensive analysis highlights how rationales enhance learning efficiency. Extensive experiments reveal that rationale-enriched preference learning offers multiple advantages: it improves data efficiency, accelerates convergence to higher-performing models, and reduces verbosity bias and hallucination. Furthermore, this framework is versatile enough to integrate with various preference optimization algorithms. Overall, our findings highlight the potential of re-imagining data design for preference learning, demonstrating that even freely available machine-generated rationales can significantly boost performance across multiple dimensions. The code repository is available at https: //github.com/reds-lab/preference-learning-with-rationales

arxiv情報

著者 Hoang Anh Just,Ming Jin,Anit Sahu,Huy Phan,Ruoxi Jia
発行日 2024-07-19 17:27:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク