MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time

要約

大規模言語モデル (LLM) は、さまざまなタスクにわたって優れたパフォーマンスを実現しますが、数学的な質問に答えるなど、複雑な推論タスクでは苦労することがよくあります。
この問題に対処するための最近の取り組みは、主に、教師付き微調整または自己改善技術を通じて数学的データセットを活用することに焦点を当てています。
ただし、これらの方法は多くの場合、準備が難しい高品質のデータセットに依存したり、微調整に大量の計算リソースを必要とします。
LLM は正しい答えを導き出す方法を知っているが、正しい推論パスを選択するのに苦労しているという発見に触発されて、純粋に推論ベースの検索手法である MindStar (M*) を提案します。
この方法では、推論タスクを探索問題として定式化し、最適な推論パスを特定するための 2 つの探索アイデアを提案します。
GSM8K と MATH データセットの両方で M* フレームワークを評価し、そのパフォーマンスを既存のオープンおよびクローズドソース LLM と比較します。
私たちの結果は、M* が Llama-2-13B や Mistral-7B などのオープンソース モデルの推論能力を大幅に強化し、GPT-3.5 や Grok-1 と同等のパフォーマンスを達成しながら、モデル サイズと計算量を大幅に削減することを示しています。
費用がかかります。

要約(オリジナル)

Although Large Language Models (LLMs) achieve remarkable performance across various tasks, they often struggle with complex reasoning tasks, such as answering mathematical questions. Recent efforts to address this issue have primarily focused on leveraging mathematical datasets through supervised fine-tuning or self-improvement techniques. However, these methods often depend on high-quality datasets that are difficult to prepare, or they require substantial computational resources for fine-tuning. Inspired by findings that LLMs know how to produce the right answer but struggle to select the correct reasoning path, we propose a purely inference-based searching method — MindStar (M*). This method formulates reasoning tasks as searching problems and proposes two search ideas to identify the optimal reasoning paths. We evaluate the M* framework on both the GSM8K and MATH datasets, comparing its performance with existing open and closed-source LLMs. Our results demonstrate that M* significantly enhances the reasoning abilities of open-source models, such as Llama-2-13B and Mistral-7B, and achieves comparable performance to GPT-3.5 and Grok-1, but with substantially reduced model size and computational costs.

arxiv情報

著者 Jikun Kang,Xin Zhe Li,Xi Chen,Amirreza Kazemi,Qianyi Sun,Boxing Chen,Dong Li,Xu He,Quan He,Feng Wen,Jianye Hao,Jun Yao
発行日 2024-06-26 14:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク