Reward Gaming in Conditional Text Generation

要約

条件付きテキスト生成モデルの出力を目的の動作に合わせるために、人間の注釈から学習した報酬関数を使用して強化学習 (RL) を使用してモデルをトレーニングすることにますます注目が集まっています。
このフレームワークの下で、高い報酬が望ましくないパターンに誤って割り当てられる 3 つの一般的なケースを特定します: ノイズによって引き起こされる偽の相関、自然に発生する偽の相関、および共変量シフトです。
学習したメトリックが報酬関数のトレーニングに使用されるデータの分布で高いパフォーマンスを達成したとしても、テキスト生成モデルの RL トレーニング中に望ましくないパターンが増幅される可能性があることを示します。
RL またはセーフティ コミュニティでのリワード ゲームについての議論がありましたが、このディスカッション ピースでは、具体的な条件付きテキスト生成の例を使用して、自然言語生成 (NLG) コミュニティでのリワード ゲームに焦点を当て、潜在的な修正と将来の領域について議論したいと思います。
仕事。

要約(オリジナル)

To align conditional text generation model outputs with desired behaviors, there has been an increasing focus on training the model using reinforcement learning (RL) with reward functions learned from human annotations. Under this framework, we identify three common cases where high rewards are incorrectly assigned to undesirable patterns: noise-induced spurious correlation, naturally occurring spurious correlation, and covariate shift. We show that even though learned metrics achieve high performance on the distribution of the data used to train the reward function, the undesirable patterns may be amplified during RL training of the text generation model. While there has been discussion about reward gaming in the RL or safety community, in this discussion piece, we would like to highlight reward gaming in the natural language generation (NLG) community using concrete conditional text generation examples and discuss potential fixes and areas for future work.

arxiv情報

著者 Richard Yuanzhe Pang,Vishakh Padmakumar,Thibault Sellam,Ankur P. Parikh,He He
発行日 2023-02-16 06:42:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク