Frugal LMs Trained to Invoke Symbolic Solvers Achieve Parameter-Efficient Arithmetic Reasoning

要約

大規模言語モデル (LLM) は、規模に応じて出現する動作としてゼロショットの数学的推論能力を示し、一般に思考連鎖 (CoT) 推論として現れます。
ただし、複数の経験的調査結果は、この能力は法外なサイズ (500 億パラメーターを超える) の LLM に限定されることを示唆しています。
一方、教育神経科学者は、言語から定式化、定式化の記号操作、および終盤の算術をモジュール化するために、算数の文章問題とほぼ同時に記号代数操作を導入することを提案しています。
この論文では、算術文章問題が形式化してから解くタスクとして提示されれば、多段階推論が苦手なはるかに小規模な LM でも合理的な算術推論を達成できるという仮説から始めます。
SYRELM と呼ばれる私たちのアーキテクチャでは、LM は自然言語の算術質問を形式言語 (FL) 記述にマップする翻訳者の役割を果たします。
次に、シンボリック ソルバーが FL 式を評価して答えを取得します。
効率的な低ランクアダプターを備えた小型の凍結 LM は、算術問題の自然言語記述 (変数名とその目的、変数を組み合わせた形式的な式など) を組み込んだ FL 式を生成できます。
ポリシー勾配強化学習を採用して、非微分可能シンボリック ソルバーから情報を得て、適応された LM をトレーニングします。
これは、外部ツール (計算機、Web 検索など) が LM の学習段階から本質的に切り離されている、ツール拡張 LLM の最近の開発とは大きく異なります。
SYRELM は、ベース LM と比べて大幅な改善 (GPT-J 6B モデルを使用した SVAMP データセットの精度で +30.65 絶対ポイントの絶対ポイント向上) を示しながら、テストベッドを診断、解釈しやすく、ほとんどの研究者の手の届く範囲に保ちます。

要約(オリジナル)

Large Language Models (LLM) exhibit zero-shot mathematical reasoning capacity as a behavior emergent with scale, commonly manifesting as chain-of-thoughts (CoT) reasoning. However, multiple empirical findings suggest that this prowess is exclusive to LLMs with exorbitant sizes (beyond 50 billion parameters). Meanwhile, educational neuroscientists suggest that symbolic algebraic manipulation be introduced around the same time as arithmetic word problems to modularize language-to-formulation, symbolic manipulation of the formulation, and endgame arithmetic. In this paper, we start with the hypothesis that much smaller LMs, which are weak at multi-step reasoning, can achieve reasonable arithmetic reasoning if arithmetic word problems are posed as a formalize-then-solve task. In our architecture, which we call SYRELM, the LM serves the role of a translator to map natural language arithmetic questions into a formal language (FL) description. A symbolic solver then evaluates the FL expression to obtain the answer. A small frozen LM, equipped with an efficient low-rank adapter, is capable of generating FL expressions that incorporate natural language descriptions of the arithmetic problem (e.g., variable names and their purposes, formal expressions combining variables, etc.). We adopt policy-gradient reinforcement learning to train the adapted LM, informed by the non-differentiable symbolic solver. This marks a sharp departure from the recent development in tool-augmented LLMs, in which the external tools (e.g., calculator, Web search, etc.) are essentially detached from the learning phase of the LM. SYRELM shows massive improvements (e.g., +30.65 absolute point improvement in accuracy on the SVAMP dataset using GPT-J 6B model) over base LMs, while keeping our testbed easy to diagnose, interpret and within reach of most researchers.

arxiv情報

著者 Subhabrata Dutta,Joykirat Singh,Ishan Pandey,Sunny Manchanda,Soumen Chakrabarti,Tanmoy Chakraborty
発行日 2023-12-19 17:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク