Let’s Reinforce Step by Step

要約

最近の進歩により、LM の言語ベンチマークの熟練度は向上しましたが、LM は数学のような複雑なタスクを正しく推論するのに常に苦労しています。
モデル推論プロセスを形成する方法として、ヒューマン フィードバックからの強化学習 (RLHF) に注目します。
特に、論理的推論を最適化するために、結果教師あり報酬モデル (ORM) とプロセス教師あり報酬モデル (PRM) という 2 つの報酬スキームを調査します。
私たちの結果は、PRM ベースの手法によって提供されるきめ細かい報酬により、単純な数学的推論 (GSM8K) の精度が向上する一方で、予想外に複雑なタスク (MATH) のパフォーマンスが低下することが示されました。
さらに、報酬集計関数がモデルのパフォーマンスにおいて重要な役割を果たすことを示します。
私たちの研究は、将来の研究に有望な道を提供するものであり、より信頼性の高い言語モデルを実現するためのきめ細かい報酬モデリングをさらに探求する必要性を強調しています。

要約(オリジナル)

While recent advances have boosted LM proficiency in linguistic benchmarks, LMs consistently struggle to reason correctly on complex tasks like mathematics. We turn to Reinforcement Learning from Human Feedback (RLHF) as a method with which to shape model reasoning processes. In particular, we explore two reward schemes, outcome-supervised reward models (ORMs) and process-supervised reward models (PRMs), to optimize for logical reasoning. Our results show that the fine-grained reward provided by PRM-based methods enhances accuracy on simple mathematical reasoning (GSM8K) while, unexpectedly, reducing performance in complex tasks (MATH). Furthermore, we show the critical role reward aggregation functions play in model performance. Providing promising avenues for future research, our study underscores the need for further exploration into fine-grained reward modeling for more reliable language models.

arxiv情報

著者 Sarah Pan,Vladislav Lialin,Sherin Muckatira,Anna Rumshisky
発行日 2023-11-10 01:35:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク