Boosting LLM Reasoning: Push the Limits of Few-shot Learning with Reinforced In-Context Pruning

要約

大規模言語モデル (LLM) は、さまざまなタスクで優れた機能を示していますが、依然として数学的推論に苦労しています。
思考連鎖 (CoT) プロンプトを最適化し、LLM を微調整する取り組みにもかかわらず、少数ショット学習の可能性はまだ解明されていません。
この研究では、LLM 数学推論能力を向上させるために、少数ショット CoT 学習の限界を押し上げる新しいアプローチである CoT-Max を提案します。
CoT-Max は、コンテキスト ウィンドウの長さが制限されているため、有用なサンプルの選択と限られた数のサンプルの課題に対処します。
自然言語入力には多くの冗長性が含まれているという観察に触発され、LLM のプラグ アンド プレイ モジュールとして粗いから細かいまでのプルーナーを提案します。これは、最初に大規模なバッチから重要な CoT サンプルを識別し、次に重要でないトークンをさらにプルーニングします。
プルーナーをトレーニングするために、さまざまな難易度とステップを持つ数的推論データセットを収集し、数的推論に対する入力の有効性とトークン長制約の両方を測定する報酬を導入し、強化学習による新しいトレーニング アプローチを提案します。
その結果、CoT-Max は、さまざまな LLM (LLaMA2-7B、13B、70B) および 5 つの数学的データセットにわたって CoT および少数ショット プロンプト ベースラインを大幅に上回り、最大 4.55% の絶対的な改善を達成しました。
驚くべきことに、微調整を行わなくても、CoT-Max を備えた LLaMA2-70B は、GSM8K 上の GPT-3.5 や広範囲の大型 LLM (PaLM、Minerva など) を上回っています。

要約(オリジナル)

Large language models (LLMs) have shown impressive capabilities in various tasks, yet they still struggle with math reasoning. Despite efforts to optimize Chain-of-Thoughts (CoT) prompts and fine-tune LLMs, the potential of few-shot learning remains unexplored. In this work, we propose CoT-Max, a novel approach pushing the boundaries of few-shot CoT learning to improve LLM math reasoning capabilities. CoT-Max addresses the challenges of the selection of useful examples and limited number of examples due to restricted context window length. Inspired by our observation that natural language inputs contain many redundancy, we propose a coarse-to-fine pruner as a plug-and-play module for LLMs, which first identifies crucial CoT examples from a large batch and then further prunes unimportant tokens. To train the pruner, we collect a math reasoning dataset with diverse difficulty and steps, introduce a reward to measure both the input’s effectiveness for math reasoning and token length constraints, and propose a novel training approach with reinforcement learning. As a result, CoT-Max significantly outperforms CoT and few-shot prompting baselines across various LLMs (LLaMA2-7B, 13B, 70B) and 5 mathematical datasets, achieving up to 4.55% absolute improvements. Remarkably, without any fine-tuning, LLaMA2-70B with CoT-Max surpasses GPT-3.5 and a wide range of larger LLMs (PaLM, Minerva, etc.) on the GSM8K.

arxiv情報

著者 Xijie Huang,Li Lyna Zhang,Kwang-Ting Cheng,Mao Yang
発行日 2023-12-14 13:03:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク