要約
特に検証モデルの使用によるテスト時間の計算における最近の進歩により、大規模言語モデル (LLM) の推論機能が大幅に強化されました。
この生成者と検証者のアプローチは、強化学習 (RL) におけるアクターと批評家のフレームワークによく似ています。
ただし、LLM の現在の検証モデルは、Q 学習などの時間差分学習を使用しない教師あり微調整に依存することがよくあります。
このペーパーでは、オフライン Q 学習を LLM 検証モデルに統合する新しいアプローチである VerifierQ を紹介します。
私たちは、Q 学習を LLM に適用する際の 3 つの主要な課題に取り組みます。(1) 発話レベルのマルコフ決定プロセス (MDP) の処理、(2) 大規模なアクション スペースの管理、(3) 過大評価バイアスの軽減です。
VerifierQ は、制限付き Q 値用に修正されたベルマン アップデートを導入し、効率的なアクション スペース管理のために暗黙的 Q 学習 (IQL) を組み込み、バランスのとれた Q 値推定のための新しい保守的 Q 学習 (CQL) 定式化を統合します。
私たちの手法により、Q 値の並列計算が可能になり、トレーニング効率が向上します。
最近の研究ではジェネレーター向けの MCTS などの RL 手法が検討されていますが、VerifierQ は Q 学習を通じて LLM の検証者 (批評家) の側面を調査した最初の企業の 1 つです。
この RL 原理の検証モデルへの統合は、ジェネレーター技術の既存の進歩を補完し、LLM でより堅牢で適応的な推論を可能にする可能性があります。
数学的推論タスクの実験結果は、効率、精度、堅牢性が向上し、従来の教師あり微調整アプローチと比較して VerifierQ の優れたパフォーマンスを示しています。
VerifierQ は、生成機能と評価機能の間の相乗効果を強化することで、さまざまなドメインにわたる複雑な認知タスクに対処する AI システムの継続的な進化に貢献します。
要約(オリジナル)
Recent advancements in test time compute, particularly through the use of verifier models, have significantly enhanced the reasoning capabilities of Large Language Models (LLMs). This generator-verifier approach closely resembles the actor-critic framework in reinforcement learning (RL). However, current verifier models in LLMs often rely on supervised fine-tuning without temporal difference learning such as Q-learning. This paper introduces VerifierQ, a novel approach that integrates Offline Q-learning into LLM verifier models. We address three key challenges in applying Q-learning to LLMs: (1) handling utterance-level Markov Decision Processes (MDPs), (2) managing large action spaces, and (3) mitigating overestimation bias. VerifierQ introduces a modified Bellman update for bounded Q-values, incorporates Implicit Q-learning (IQL) for efficient action space management, and integrates a novel Conservative Q-learning (CQL) formulation for balanced Q-value estimation. Our method enables parallel Q-value computation and improving training efficiency. While recent work has explored RL techniques like MCTS for generators, VerifierQ is among the first to investigate the verifier (critic) aspect in LLMs through Q-learning. This integration of RL principles into verifier models complements existing advancements in generator techniques, potentially enabling more robust and adaptive reasoning in LLMs. Experimental results on mathematical reasoning tasks demonstrate VerifierQ’s superior performance compared to traditional supervised fine-tuning approaches, with improvements in efficiency, accuracy and robustness. By enhancing the synergy between generation and evaluation capabilities, VerifierQ contributes to the ongoing evolution of AI systems in addressing complex cognitive tasks across various domains.
arxiv情報
著者 | Jianing Qi,Hao Tang,Zhigang Zhu |
発行日 | 2024-10-10 15:43:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google