Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving

要約

大規模な言語モデル(LLMS)を使用した数学的推論への既存のアプローチは、一般化可能性または正確な計算のためのツール統合推論(TIR)についてチェーンオブ思考(COT)に依存しています。
これらの方法を組み合わせるための努力がなされていますが、主に選択後の戦略または事前定義された戦略に依存しており、LLMSが固有の能力に基づいて推論戦略を自律的に適応できるかどうかを明らかにしています。
この作業では、TATA(LLMSの適性に応じてLLMを教える)を提案します。これは、LLMが自然に推論戦略を自然にパーソナライズできるようにし、本質的な適性と合わせて推論戦略をパーソナライズできるようにします。
TATAは、モデルの独自の能力に合わせてトレーニングデータを調整するために、監視された微調整(SFT)中にベースLLMを意識したデータ選択を組み込みます。
このアプローチは、テスト時に適切な推論戦略を自律的に決定し、適用するためにLLMを装備します。
汎用と数学専門のLLMの両方を使用して、6つの数学的推論ベンチマークに関する広範な実験を通じてTATAを評価します。
経験的結果は、TATAがCOTとTIRの相補的な強度を効果的に組み合わせて、TIR単独と比較して優れたパフォーマンスを実現した推論効率を改善することを示しています。
さらなる分析では、LLMが効果的かつ適応的な推論決定を行い、推論戦略をモデル機能に合わせることができるようにする際の適性認識データ選択の重要な役割を強調しています。

要約(オリジナル)

Existing approaches to mathematical reasoning with large language models (LLMs) rely on Chain-of-Thought (CoT) for generalizability or Tool-Integrated Reasoning (TIR) for precise computation. While efforts have been made to combine these methods, they primarily rely on post-selection or predefined strategies, leaving an open question: whether LLMs can autonomously adapt their reasoning strategy based on their inherent capabilities. In this work, we propose TATA (Teaching LLMs According to Their Aptitude), an adaptive framework that enables LLMs to personalize their reasoning strategy spontaneously, aligning it with their intrinsic aptitude. TATA incorporates base-LLM-aware data selection during supervised fine-tuning (SFT) to tailor training data to the model’s unique abilities. This approach equips LLMs to autonomously determine and apply the appropriate reasoning strategy at test time. We evaluate TATA through extensive experiments on six mathematical reasoning benchmarks, using both general-purpose and math-specialized LLMs. Empirical results demonstrate that TATA effectively combines the complementary strengths of CoT and TIR, achieving superior or comparable performance with improved inference efficiency compared to TIR alone. Further analysis underscores the critical role of aptitude-aware data selection in enabling LLMs to make effective and adaptive reasoning decisions and align reasoning strategies with model capabilities.

arxiv情報

著者 Xin Xu,Yan Xu,Tianhao Chen,Yuchen Yan,Chengwu Liu,Zaoyu Chen,Yufei Wang,Yichun Yin,Yasheng Wang,Lifeng Shang,Qun Liu
発行日 2025-02-17 16:56:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク