要約
大規模な言語モデルの能力を強化する最近の進歩は、自動的に検証可能な結果を持つドメインに強化学習を適用することから生じています。
重要な質問は、結果を評価するには人間のフィードバックが必要なドメインの結果に対して同様にRLを使用できるかどうかです。
たとえば、深い研究や旅行の計画などのタスクでは、結果の評価が定性的であり、成功の程度がたくさんあります。
人間のフィードバックを収集するための魅力的でスケーラブルなモダリティの1つは、優先データです。$ k $が指定された結果を示す順序ランキング(ペアワイズまたは$ k $ -wise)が望ましいものです。
この作業では、重要な障害を研究します。優先データは、結果に基づいた最適化を根本的かつ大幅に制限します。
理想化された選好データ(無限、ノイズレス、オンライン)であっても、順序フィードバックを使用すると、ほぼ最適なソリューションを取得することができません。
投票理論を使用してこの不可能性を正式にし、モデルがどのように選出するかについてのクエリに答えることを選択する方法との類似性を引き出します。
これは、人間のフィードバックを要求するドメインへのトレーニング後のRLの成功を拡大するために、接地された人間のスコアリングとアルゴリズムの革新が必要であることを示しています。
また、RLHFが歴史的に成功した状況(例えば、命令調整や安全トレーニング)を引き出すことに関して、これらの制限がRLHFに不釣り合いに影響を与えた理由を調査します。
要約(オリジナル)
Recent progress in strengthening the capabilities of large language models has stemmed from applying reinforcement learning to domains with automatically verifiable outcomes. A key question is whether we can similarly use RL to optimize for outcomes in domains where evaluating outcomes inherently requires human feedback; for example, in tasks like deep research and trip planning, outcome evaluation is qualitative and there are many possible degrees of success. One attractive and scalable modality for collecting human feedback is preference data: ordinal rankings (pairwise or $k$-wise) that indicate, for $k$ given outcomes, which one is preferred. In this work, we study a critical roadblock: preference data fundamentally and significantly limits outcome-based optimization. Even with idealized preference data (infinite, noiseless, and online), the use of ordinal feedback can prevent obtaining even approximately optimal solutions. We formalize this impossibility using voting theory, drawing an analogy between how a model chooses to answer a query with how voters choose a candidate to elect. This indicates that grounded human scoring and algorithmic innovations are necessary for extending the success of RL post-training to domains demanding human feedback. We also explore why these limitations have disproportionately impacted RLHF when it comes to eliciting reasoning behaviors (e.g., backtracking) versus situations where RLHF has been historically successful (e.g., instruction-tuning and safety training), finding that the limitations of preference data primarily suppress RLHF’s ability to elicit robust strategies — a class that encompasses most reasoning behaviors.
arxiv情報
著者 | Eric Zhao,Jessica Dai,Pranjal Awasthi |
発行日 | 2025-05-26 13:26:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google