要約
大規模な言語モデル(LLM)が急速に進化しているため、正確なフィードバックを提供し、その出力でスケーラブルな監視が緊急かつ重大な問題になります。
自動化された監督を実現するための批評モデルとしてLLMを活用することは、有望なソリューションです。
この作業では、LLMSの数学批評能力の研究と強化に焦点を当てています。
現在のLLM批評家は、各ステップで浅くて表面的な批評を提供し、判断の正確性が低く、LLMジェネレーターが間違いを修正するのに十分なフィードバックを提供するのに苦労しています。
この問題に取り組むために、数学ソリューションの各推論ステップを意図的に批判できるLLM批評家を開発するための斬新で効果的な2段階のフレームワークを提案します。
最初の段階では、QWEN2.5-72B-Instructを使用して、監視付きの微調整の種子データとして4.5Kの長型の批評を生成します。
各種の批評は、多面的な検証と、各推論ステップの最初の批評の詳細な批評を含む、意図的な段階的な批評で構成されています。
次に、PRM800Kからの既存のヒト標識データまたはモンテカルロサンプリングベースの正確性推定を介して取得された自動アノテートデータのいずれかを使用して、微調整されたモデルで強化学習を実行し、批評能力をさらに奨励します。
QWEN2.5-7B-Instructに基づいて構築された開発された批評モデルは、既存のLLM批評家(同じサイズのDeepSeek-R1-DistillモデルとGPT-4Oを含む)をさまざまなエラー識別ベンチマークに著しく上回るだけでなく、LLMジェネレーターがより詳細なフィードバックを通じて誤った手順を補充するのにも役立ちます。
要約(オリジナル)
As Large Language Models (LLMs) are rapidly evolving, providing accurate feedback and scalable oversight on their outputs becomes an urgent and critical problem. Leveraging LLMs as critique models to achieve automated supervision is a promising solution. In this work, we focus on studying and enhancing the math critique ability of LLMs. Current LLM critics provide critiques that are too shallow and superficial on each step, leading to low judgment accuracy and struggling to offer sufficient feedback for the LLM generator to correct mistakes. To tackle this issue, we propose a novel and effective two-stage framework to develop LLM critics that are capable of deliberately critiquing on each reasoning step of math solutions. In the first stage, we utilize Qwen2.5-72B-Instruct to generate 4.5K long-form critiques as seed data for supervised fine-tuning. Each seed critique consists of deliberate step-wise critiques that includes multi-perspective verifications as well as in-depth critiques of initial critiques for each reasoning step. Then, we perform reinforcement learning on the fine-tuned model with either existing human-labeled data from PRM800K or our automatically annotated data obtained via Monte Carlo sampling-based correctness estimation, to further incentivize its critique ability. Our developed critique model built on Qwen2.5-7B-Instruct not only significantly outperforms existing LLM critics (including the same-sized DeepSeek-R1-distill models and GPT-4o) on various error identification benchmarks, but also more effectively helps the LLM generator refine erroneous steps through more detailed feedback.
arxiv情報
著者 | Wenkai Yang,Jingwen Chen,Yankai Lin,Ji-Rong Wen |
発行日 | 2025-05-01 17:03:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google