A Baseline Analysis of Reward Models’ Ability To Accurately Analyze Foundation Models Under Distribution Shift

要約

基礎モデル、特に大規模言語モデル (LLM) は、最近広く注目され、採用されるようになりました。
ヒューマン フィードバックによる強化学習 (RLHF) には、望ましい行動を捕捉するための報酬モデルのトレーニングが含まれます。これは、LLM の調整に使用されます。
これらの報酬モデルは、LLM 応答の望ましい動作への順守を推定するために、推論時にさらに使用されます。
しかし、これらの報酬モデルが分布の変化に対してどの程度堅牢であるかを測定する研究はほとんどありません。
この研究では、精度とキャリブレーション (つまり、精度と信頼性の調整) によって測定される報酬モデルのパフォーマンスが分布シフトによってどのように影響されるかを評価します。
我々は、OOD プロンプトと応答による新しいキャリブレーション パターンと精度の低下を示し、報酬モデルはプロンプトよりも応答の変化に敏感であることを示します。
さらに、分類で一般的に使用される OOD 検出手法を報酬モデル設定に適用して、プロンプトと応答の分布の変化を検出します。

要約(オリジナル)

Foundation models, specifically Large Language Models (LLM’s), have lately gained wide-spread attention and adoption. Reinforcement Learning with Human Feedback (RLHF) involves training a reward model to capture desired behaviors, which is then used to align LLM’s. These reward models are additionally used at inference-time to estimate LLM responses’ adherence to those desired behaviors. However, there is little work measuring how robust these reward models are to distribution shifts. In this work, we evaluate how reward model performance – measured via accuracy and calibration (i.e. alignment between accuracy and confidence) – is affected by distribution shift. We show novel calibration patterns and accuracy drops due to OOD prompts and responses, and that the reward model is more sensitive to shifts in responses than prompts. Additionally, we adapt an OOD detection technique commonly used in classification to the reward model setting to detect these distribution shifts in prompts and responses.

arxiv情報

著者 Will LeVine,Ben Pikus,Tony Chen,Sean Hendryx
発行日 2023-12-19 16:05:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク