要約
複雑な推論タスクで大規模な言語モデルを強化するための革新的な強化学習フレームワークであるDirect Value Optimization(DVO)を紹介します。
優先ラベルに依存する従来の方法とは異なり、DVOは個々の推論ステップで値信号を利用し、平均四角エラー損失を介してモデルを最適化します。
DVOの重要な利点は、そのきめんべての監督にあり、労働集約的な人間の注釈の必要性を回避します。
DVO内のターゲット値は、モンテカルロツリー検索または結果値モデルのいずれかを使用して推定されます。
数学的および常識的な推論タスクの両方に関する実証分析は、DVOがトレーニングの手順が少ない場合でも、既存のオフライン優先最適化手法を常に上回ることを示しています。
これらの調査結果は、推論能力を進める際の価値信号の重要性を強調し、明示的な人間の好み情報を欠くシナリオの下で優れた方法論としてDVOを強調しています。
要約(オリジナル)
We introduce Direct Value Optimization (DVO), an innovative reinforcement learning framework for enhancing large language models in complex reasoning tasks. Unlike traditional methods relying on preference labels, DVO utilizes value signals at individual reasoning steps, optimizing models via a mean squared error loss. The key benefit of DVO lies in its fine-grained supervision, circumventing the need for labor-intensive human annotations. Target values within the DVO are estimated using either Monte Carlo Tree Search or an outcome value model. Our empirical analysis on both mathematical and commonsense reasoning tasks shows that DVO consistently outperforms existing offline preference optimization techniques, even with fewer training steps. These findings underscore the importance of value signals in advancing reasoning capabilities and highlight DVO as a superior methodology under scenarios lacking explicit human preference information.
arxiv情報
著者 | Hongbo Zhang,Han Cui,Guangsheng Bao,Linyi Yang,Jun Wang,Yue Zhang |
発行日 | 2025-02-19 13:51:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google