Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint

要約

強化学習(RL)は、予期せぬ出力を防止するため、たとえば有害性やエラーを軽減するために、大規模言語モデル(LLM)のトレーニングに広く使用されてきました。
しかし、既存の RL 手法はほとんどがインスタンス レベルの報酬を採用しているため、複雑な推論タスクに対してきめ細かい監視を提供できず、不正確さを引き起こす少数の重要なトークンに焦点を当てることができません。
これに対処するために、報酬モデルとして生成モデルを組み込んだ \textbf{RLMEC} という新しい RL メソッドを提案します。このメソッドは、最小限の編集制約の下で誤った解を書き換えるタスクによってトレーニングされ、RL に対してトークンレベルの報酬を生成できます。
トレーニング。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルの RL 目標と、RL プロセスを安定化するための模倣ベースの正則化を設計します。
そして、両方の目的は、誤った解決策のキー トークンの学習に焦点を当て、他の重要でないトークンの影響を軽減します。
数学的タスクと質問応答タスクに関する実験結果は、私たちのアプローチの有効性を実証しました。
コードとデータは \url{https://github.com/RUCAIBox/RLMEC} で入手できます。

要約(オリジナル)

Reinforcement learning (RL) has been widely used in training large language models~(LLMs) for preventing unexpected outputs, \eg reducing harmfulness and errors. However, existing RL methods mostly adopt the instance-level reward, which is unable to provide fine-grained supervision for complex reasoning tasks, and can not focus on the few key tokens that lead to the incorrectness. To address it, we propose a new RL method named \textbf{RLMEC} that incorporates a generative model as the reward model, which is trained by the erroneous solution rewriting task under the minimum editing constraint, and can produce token-level rewards for RL training. Based on the generative reward model, we design the token-level RL objective for training and an imitation-based regularization for stabilizing RL process. And the both objectives focus on the learning of the key tokens for the erroneous solution, reducing the effect of other unimportant tokens. The experiment results on mathematical tasks and question-answering tasks have demonstrated the effectiveness of our approach. Our code and data are available at \url{https://github.com/RUCAIBox/RLMEC}.

arxiv情報

著者 Zhipeng Chen,Kun Zhou,Wayne Xin Zhao,Junchen Wan,Fuzheng Zhang,Di Zhang,Ji-Rong Wen
発行日 2024-01-11 17:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク