Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

要約

このペーパーでは、微調整や優れたモデルを必要とせずに、小規模言語モデル (SLM) の推論能力を大幅に向上させるセルフプレイ相互推論アプローチである rStar を紹介します。
rStar は推論をセルフプレイの相互世代差別プロセスに切り離します。
まず、ターゲット SLM は、人間のような推論アクションの豊富なセットでモンテカルロ ツリー検索 (MCTS) を強化し、より高品質の推論軌跡を構築します。
次に、ターゲット SLM と同様の機能を備えた別の SLM が、ターゲット SLM によって生成された各軌道を検証するための識別子として機能します。
相互に合意された推論の軌道は相互に一貫しているとみなされ、したがって正しい可能性が高くなります。
5 つの SLM にわたる広範な実験により、rStar が GSM8K、GSM-Hard、MATH、SVAMP、StrategyQA などのさまざまな推論問題を効果的に解決できることが実証されました。
注目すべきことに、rStar は GSM8K 精度を LLaMA2-7B で 12.51% から 63.91%、Mistral-7B で 36.46% から 81.88%、LLaMA3-8B-Instruct で 74.53% から 91.13% に向上させます。
コードは https://github.com/zhentingqi/rStar で入手できます。

要約(オリジナル)

This paper introduces rStar, a self-play mutual reasoning approach that significantly improves reasoning capabilities of small language models (SLMs) without fine-tuning or superior models. rStar decouples reasoning into a self-play mutual generation-discrimination process. First, a target SLM augments the Monte Carlo Tree Search (MCTS) with a rich set of human-like reasoning actions to construct higher quality reasoning trajectories. Next, another SLM, with capabilities similar to the target SLM, acts as a discriminator to verify each trajectory generated by the target SLM. The mutually agreed reasoning trajectories are considered mutual consistent, thus are more likely to be correct. Extensive experiments across five SLMs demonstrate rStar can effectively solve diverse reasoning problems, including GSM8K, GSM-Hard, MATH, SVAMP, and StrategyQA. Remarkably, rStar boosts GSM8K accuracy from 12.51% to 63.91% for LLaMA2-7B, from 36.46% to 81.88% for Mistral-7B, from 74.53% to 91.13% for LLaMA3-8B-Instruct. Code will be available at https://github.com/zhentingqi/rStar.

arxiv情報

著者 Zhenting Qi,Mingyuan Ma,Jiahang Xu,Li Lyna Zhang,Fan Yang,Mao Yang
発行日 2024-08-12 14:42:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク