要約
基礎モデル、特に大規模言語モデル(LLM)は、最近広く注目され、採用されている。人間のフィードバックによる強化学習(RLHF)では、報酬モデルを訓練して望ましい行動をとらえ、それをLLMのアライメントに使用する。これらの報酬モデルは、さらに推論時に、LLMの応答がそれらの望ましい行動に忠実であることを推定するために使用される。しかし、これらの報酬モデルが分布の変化に対してどの程度頑健であるかを測定した研究はほとんどない。本研究では、報酬モデルの性能(精度とキャリブレーション(精度と信頼度の整合性)により測定)が分布シフトによりどのような影響を受けるかを評価する。我々は、OODプロンプトと応答による新しいキャリブレーションパターンと精度低下を示し、報酬モデルがプロンプトよりも応答のシフトに敏感であることを示す。さらに、プロンプトと応答の分布シフトを検出するために、分類で一般的に用いられるOOD検出技術を報酬モデルの設定に適応させる。
要約(オリジナル)
Foundation models, specifically Large Language Models (LLM’s), have lately gained wide-spread attention and adoption. Reinforcement Learning with Human Feedback (RLHF) involves training a reward model to capture desired behaviors, which is then used to align LLM’s. These reward models are additionally used at inference-time to estimate LLM responses’ adherence to those desired behaviors. However, there is little work measuring how robust these reward models are to distribution shifts. In this work, we evaluate how reward model performance – measured via accuracy and calibration (i.e. alignment between accuracy and confidence) – is affected by distribution shift. We show novel calibration patterns and accuracy drops due to OOD prompts and responses, and that the reward model is more sensitive to shifts in responses than prompts. Additionally, we adapt an OOD detection technique commonly used in classification to the reward model setting to detect these distribution shifts in prompts and responses.
arxiv情報
著者 | Ben Pikus,Will LeVine,Tony Chen,Sean Hendryx |
発行日 | 2023-12-04 16:31:30+00:00 |
arxivサイト | arxiv_id(pdf) |