Improving Reward Models with Synthetic Critiques

要約

報酬モデル (RM) は、人間のフィードバックからの強化学習のプロセスを通じて言語モデルを調整する上で重要な役割を果たします。
RM は人間の好みを反映したスコアを予測するように訓練されていますが、人間による注釈には多大な時間とコストが必要です。
さらに、RM はトレーニング セット内の表面的な特徴にすぐに過剰適合する傾向があり、目に見えない分布での汎化パフォーマンスを妨げます。
私たちは、大規模な言語モデルによって生成された合成自然言語批評を使用して追加のフィードバックを提供し、指示のフォロー、正確さ、スタイルなどの側面を評価する新しいアプローチを提案します。
これにより、RM が評価してスコアを付けるための、より豊富なシグナルとより堅牢な機能が提供されます。
私たちは、高品質の批評によって、さまざまな事前トレーニング済みモデルから初期化された RM のパフォーマンスとデータ効率が向上し、コストのかかる人間によるアノテーションへの依存が軽減されることを実証します。
さらに、批評を組み込むことで、RM トレーニングの解釈可能性と堅牢性の両方が向上します。

要約(オリジナル)

Reward models (RMs) play a critical role in aligning language models through the process of reinforcement learning from human feedback. RMs are trained to predict a score reflecting human preference, which requires significant time and cost for human annotation. Additionally, RMs tend to quickly overfit on superficial features in the training set, hindering their generalization performance on unseen distributions. We propose a novel approach using synthetic natural language critiques generated by large language models to provide additional feedback, evaluating aspects such as instruction following, correctness, and style. This offers richer signals and more robust features for RMs to assess and score on. We demonstrate that high-quality critiques improve the performance and data efficiency of RMs initialized from different pretrained models, reducing the reliance on costly human annotations. Furthermore, incorporating critiques improves both the interpretability and robustness of RM training.

arxiv情報

著者 Zihuiwen Ye,Fraser Greenlee-Scott,Max Bartolo,Phil Blunsom,Jon Ander Campos,Matthias Gallé
発行日 2024-10-18 15:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク