Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

要約

コンテキスト学習(ICL)により、高度なプロンプトと高品質のデモンストレーションを通じて、大規模な言語モデル(LLMS)がダウンストリームタスクを実行できます。
ただし、従来のICLパラダイムは、主に明示的な推論ガイダンスの品質と欠如に依存することに起因する複雑な推論タスクで大きな制限に遭遇します。
これらの課題に対処するために、HIAR-ICL、a ** hi ** gh-level ** a ** utomated ** r ** ICL **のイーソンパラダイムを紹介します。
私たちのアプローチは、5つの原子推論アクションを定義することから始まります。このアクションでは、モンテカルロツリー検索を使用して、高レベルの推論パターンを体系的に構築します。
推論中、HIAR-ICLは問題属性に基づいて適切な推論パターンを動的に選択し、モデルの推論プロセスの明示的なガイダンスを提供します。
実験では、HIAR-ICLの有効性と効率性が示されています。QWEN2.5-7B-Instructを使用した200の以前のサンプルのみを利用して、私たちの方法はMATHで80.6%の精度を達成し、AMCで62.5%を達成し、GPT-4oの77.2%と57.5%を超えています。
私たちのアプローチは、さまざまなサイズのモデル全体でパフォーマンスを向上させ、ドメイン全体で効果的に一般化します。
さらなる分析により、HIAR-ICLは、GRPOなどのトレーニング後の手法と互換性のあるプラグアンドプレイ推論方法としても機能することが明らかになりました。
コードとデータはhttps://github.com/jinyangwu/hiariclで入手できます。

要約(オリジナル)

In-context learning (ICL) enables large language models (LLMs) to perform downstream tasks through advanced prompting and high-quality demonstrations. However, traditional ICL paradigms encounter significant limitations in complex reasoning tasks, stemming primarily from their dependence on example quality and absence of explicit reasoning guidance. To address these challenges, we introduce HiAR-ICL, a **Hi**gh-level **A**utomated **R**easoning paradigm in **ICL** that shifts focus from specific examples to abstract reasoning patterns, thereby extending the conventional concept of ‘context’ in ICL. Our approach begins by defining five atomic reasoning actions, upon which we employ Monte Carlo Tree Search to systematically construct high-level reasoning patterns. During inference, HiAR-ICL dynamically selects appropriate reasoning patterns based on problem attributes, providing explicit guidance for the model’s reasoning process. Experiments demonstrate HiAR-ICL’s effectiveness and efficiency: utilizing only 200 prior samples with Qwen2.5-7B-Instruct, our method achieves 80.6% accuracy on MATH and 62.5% on AMC, exceeding GPT-4o’s 77.2% and 57.5%. Our approach enhances performance across models of varying sizes while generalizing effectively across domains. Further analysis reveals that HiAR-ICL can also serve as a plug-and-play inference method compatible with post-training techniques like GRPO. Code and data are available at https://github.com/jinyangwu/HiARICL.

arxiv情報

著者 Jinyang Wu,Mingkuan Feng,Shuai Zhang,Feihu Che,Zengqi Wen,Chonghua Liao,Jianhua Tao
発行日 2025-06-02 14:26:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク