SMART: Self-learning Meta-strategy Agent for Reasoning Tasks

要約

演繹的推論を必要とするタスク、特に複数のステップを伴うタスクでは、普遍的に最適な単一のアプローチは存在しないため、理論的根拠やプログラムの中間生成などの適応戦略が必要になることがよくあります。
言語モデル (LM) は、反復的な自己洗練と戦略調整を通じて出力を強化できますが、最初の試行では最も効果的な戦略を適用できないことがよくあります。
この非効率性により、LM は改良を必要とせずに、最初の試行で最適な戦略を選択できるようになるだろうか、という疑問が生じます。
この課題に対処するために、LM がさまざまな推論タスクに対して最も効果的な戦略を自律的に学習して選択できるようにする新しいフレームワークである SMART (推論タスク用自己学習メタ戦略エージェント) を紹介します。
戦略選択プロセスをマルコフ決定プロセスとしてモデル化し、強化学習による継続的な自己改善を活用して、モデルが特定のタスクを解決するための適切な戦略を見つけられるようにします。
複数の推論パスや外部フィードバックに依存する従来の自己洗練手法とは異なり、SMART では、LM が自身の推論プロセスの結果を内部化し、それに応じて戦略を調整し、最初の試行で正しい解決策を目指すことができます。
さまざまな推論データセットとさまざまなモデル アーキテクチャを使用した実験では、SMART が外部のガイダンスなしで最適な戦略を選択するモデルの能力を大幅に向上させることが実証されました (GSM8K データセットで +15 ポイント)。
単一の推論パスでより高い精度を達成することで、SMART はパフォーマンスを向上させるだけでなく、改良ベースの戦略の計算コストを削減し、LM でのより効率的でインテリジェントな推論への道を開きます。

要約(オリジナル)

Tasks requiring deductive reasoning, especially those involving multiple steps, often demand adaptive strategies such as intermediate generation of rationales or programs, as no single approach is universally optimal. While Language Models (LMs) can enhance their outputs through iterative self-refinement and strategy adjustments, they frequently fail to apply the most effective strategy in their first attempt. This inefficiency raises the question: Can LMs learn to select the optimal strategy in the first attempt, without a need for refinement? To address this challenge, we introduce SMART (Self-learning Meta-strategy Agent for Reasoning Tasks), a novel framework that enables LMs to autonomously learn and select the most effective strategies for various reasoning tasks. We model the strategy selection process as a Markov Decision Process and leverage reinforcement learning-driven continuous self-improvement to allow the model to find the suitable strategy to solve a given task. Unlike traditional self-refinement methods that rely on multiple inference passes or external feedback, SMART allows an LM to internalize the outcomes of its own reasoning processes and adjust its strategy accordingly, aiming for correct solutions on the first attempt. Our experiments across various reasoning datasets and with different model architectures demonstrate that SMART significantly enhances the ability of models to choose optimal strategies without external guidance (+15 points on the GSM8K dataset). By achieving higher accuracy with a single inference pass, SMART not only improves performance but also reduces computational costs for refinement-based strategies, paving the way for more efficient and intelligent reasoning in LMs.

arxiv情報

著者 Rongxing Liu,Kumar Shridhar,Manish Prajapat,Patrick Xia,Mrinmaya Sachan
発行日 2024-10-21 15:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク