VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

要約

大規模言語モデル (LLM) は、報酬を受け取る前にいくつかの複雑なステップを実行する必要がある複雑な推論タスクに適用されることが増えています。
これらのステップにクレジットを適切に割り当てることは、モデルのパフォーマンスを向上させるために不可欠です。
LLM 微調整に使用される最先端の強化学習 (RL) アルゴリズムである近接ポリシー最適化 (PPO) は、価値ネットワークを採用してクレジット割り当てに取り組みます。
ただし、バリュー ネットワークは、複雑な推論タスクで期待される累積報酬を正確に予測するという課題に直面しており、多くの場合、大きな差異の更新や次善のパフォーマンスにつながります。
この研究では、価値ネットワークの有効性を体系的に評価し、推論が重要な LLM タスクにおける重大な欠点を明らかにし、代替ステップを比較した場合にランダムなベースラインをわずかに上回るパフォーマンスを示すことを示しました。
これに対処するために、言語環境の柔軟性を活用して、大規模な値のネットワークの必要性を回避し、不偏のモンテカルロベースの推定値を計算する直接的なアプローチである VinePPO を提案します。
私たちの手法は、勾配更新が少なく (最大 9 倍)、実時間も短い (最大 3.0 倍) ため、MATH および GSM8K データセット全体で PPO およびその他の RL フリー ベースラインよりも一貫して優れたパフォーマンスを示します。
これらの結果は、LLM の RL 微調整における正確なクレジット割り当ての重要性を強調し、優れた代替手段としての VinePPO の可能性を実証しています。

要約(オリジナル)

Large language models (LLMs) are increasingly applied to complex reasoning tasks that require executing several complex steps before receiving any reward. Properly assigning credit to these steps is essential for enhancing model performance. Proximal Policy Optimization (PPO), a state-of-the-art reinforcement learning (RL) algorithm used for LLM finetuning, employs value networks to tackle credit assignment. However, value networks face challenges in predicting the expected cumulative rewards accurately in complex reasoning tasks, often leading to high-variance updates and suboptimal performance. In this work, we systematically evaluate the efficacy of value networks and reveal their significant shortcomings in reasoning-heavy LLM tasks, showing that they barely outperform a random baseline when comparing alternative steps. To address this, we propose VinePPO, a straightforward approach that leverages the flexibility of language environments to compute unbiased Monte Carlo-based estimates, bypassing the need for large value networks. Our method consistently outperforms PPO and other RL-free baselines across MATH and GSM8K datasets with fewer gradient updates (up to 9x), less wall-clock time (up to 3.0x). These results emphasize the importance of accurate credit assignment in RL finetuning of LLM and demonstrate VinePPO’s potential as a superior alternative.

arxiv情報

著者 Amirhossein Kazemnejad,Milad Aghajohari,Eva Portelance,Alessandro Sordoni,Siva Reddy,Aaron Courville,Nicolas Le Roux
発行日 2024-10-02 15:49:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク