Spontaneous Reward Hacking in Iterative Self-Refinement

要約

言語モデルは、自然言語フィードバックに基づいて出力を反復的に改善することが可能であるため、ユーザの嗜好をコンテキスト内で最適化することができる。人間のユーザーの代わりに、第二言語モデルを評価者として使用し、ジェネレーターが最適化を試みる数値評価とともにフィードバックを提供することができます。しかし、評価者はユーザー嗜好の不完全な代理人であるため、この最適化は、実際のユーザー嗜好によって判断されるように、生成品質が停滞したまま、あるいは低下したまま、評価者の評価が向上する報酬ハッキングにつながる可能性があります。報酬ハッキングの懸念は、生成者と評価者が同じ言語モデルを使用する反復的な自己洗練において高まる。エッセイ編集タスクを用いて、反復的自己洗練が言語モデル評価者と人間の判断の乖離をもたらすことを示し、報酬ハッキングが反復的自己洗練の使用により文脈内で自発的に起こりうることを実証する。さらに、報酬ハッキングが発生する条件を研究し、報酬ハッキングの重大性に影響する2つの要因、すなわち、モデルのサイズと、生成者と評価者の間のコンテキストの共有について観察する。

要約(オリジナル)

Language models are capable of iteratively improving their outputs based on natural language feedback, thus enabling in-context optimization of user preference. In place of human users, a second language model can be used as an evaluator, providing feedback along with numerical ratings which the generator attempts to optimize. However, because the evaluator is an imperfect proxy of user preference, this optimization can lead to reward hacking, where the evaluator’s ratings improve while the generation quality remains stagnant or even decreases as judged by actual user preference. The concern of reward hacking is heightened in iterative self-refinement where the generator and the evaluator use the same underlying language model, in which case the optimization pressure can drive them to exploit shared vulnerabilities. Using an essay editing task, we show that iterative self-refinement leads to deviation between the language model evaluator and human judgment, demonstrating that reward hacking can occur spontaneously in-context with the use of iterative self-refinement. In addition, we study conditions under which reward hacking occurs and observe two factors that affect reward hacking severity: model size and context sharing between the generator and the evaluator.

arxiv情報

著者 Jane Pan,He He,Samuel R. Bowman,Shi Feng
発行日 2024-07-05 14:34:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク