Small Language Models Fine-tuned to Coordinate Larger Language Models improve Complex Reasoning

要約

思考連鎖 (CoT) の生成を促す大規模言語モデル (LLM) は、優れた推論能力を示します。
複雑な複数ステップの推論問題を解決するために、迅速な分解を試みる最近の試みは、問題の分解と解決を同時に行う LLM の能力に依存しています。
重大な欠点は、基本的な LLM は通常、微調整に利用できないため、適応の計算が法外に困難になることです。
私たちは、問題の分解と解決策の生成は別個の機能であり、1 つのモノリシック LLM よりも個別のモジュールで対処する方が適切であると信じています (そして実証しています)。
DaSLaM を紹介します。DaSLaM は、分解ジェネレーターを使用して、複雑な問題をより少ない推論手順で済むサブ問題に分解します。
これらの副問題はソルバーによって解決されます。
比較的小さな (13B パラメーター) LM を分解ジェネレーターとして使用します。これをポリシー勾配最適化を使用してトレーニングし、ソルバー LM (ブラックボックスとみなされる) と対話し、サブ問題を介してガイドします。これにより、メソッドがソルバーに依存しないようになります。
複数の異なる推論データセットの評価により、私たちの方法を使用すると、1,750 億パラメータの LM (text-davinci-003) が、桁違いに大きい後継の GPT-4 と比較して、競合するか、さらに優れたパフォーマンスを生み出すことができることが明らかになりました。
さらに、DaSLaM がスケールの関数としてのソルバーの機能によって制限されないことを示します。
たとえば、ソルバーに依存しない分解手法により、さまざまなサイズのソルバー LM のパフォーマンスが大幅に向上します。
徹底的なアブレーション研究により、プロンプトのみに基づいて、法外に大規模なデコンポーザ LLM よりも当社のモジュール式微調整技術の優位性が実証されています。

要約(オリジナル)

Large Language Models (LLMs) prompted to generate chain-of-thought (CoT) exhibit impressive reasoning capabilities. Recent attempts at prompt decomposition toward solving complex, multi-step reasoning problems depend on the ability of the LLM to simultaneously decompose and solve the problem. A significant disadvantage is that foundational LLMs are typically not available for fine-tuning, making adaptation computationally prohibitive. We believe (and demonstrate) that problem decomposition and solution generation are distinct capabilites, better addressed in separate modules, than by one monolithic LLM. We introduce DaSLaM, which uses a decomposition generator to decompose complex problems into subproblems that require fewer reasoning steps. These subproblems are answered by a solver. We use a relatively small (13B parameters) LM as the decomposition generator, which we train using policy gradient optimization to interact with a solver LM (regarded as black-box) and guide it through subproblems, thereby rendering our method solver-agnostic. Evaluation on multiple different reasoning datasets reveal that with our method, a 175 billion parameter LM (text-davinci-003) can produce competitive or even better performance, compared to its orders-of-magnitude larger successor, GPT-4. Additionally, we show that DaSLaM is not limited by the solver’s capabilities as a function of scale; e.g., solver LMs with diverse sizes give significant performance improvement with our solver-agnostic decomposition technique. Exhaustive ablation studies evince the superiority of our modular finetuning technique over exorbitantly large decomposer LLMs, based on prompting alone.

arxiv情報

著者 Gurusha Juneja,Subhabrata Dutta,Soumen Chakrabarti,Sunny Manchanda,Tanmoy Chakraborty
発行日 2024-02-27 13:24:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク