Distilling Reasoning Ability from Large Language Models with Adaptive Thinking

要約

思考連鎖の微調整 (cot-finetuning) は、単に答えを予測するだけでなく、大規模言語モデル (LLM) の推論手順を模倣できるようにすることで、特定のタスクに対するパフォーマンスを向上させる推論能力を小規模言語モデル (SLM) に与えることを目的としています。
既存の cot-finetuning メソッドのほとんどは事前思考メカニズムを採用しており、SLM が答えを提供する前に理論的根拠を生成できます。
このメカニズムにより、SLM は複雑な質問を分析して考えることができますが、答えの正しさが論理的根拠の小さな間違いに対して非常に敏感になることもあります。
したがって、論理的根拠の前に答えを生成するための堅牢な事後思考メカニズムを提案します。
この回答優先設定のおかげで、1) 回答は、理論的根拠の小さな間違いによって引き起こされる悪影響から逃れることができます。
2) 理論的根拠は答えに対する誤差増幅器として機能し、SLM がハード サンプルの学習に重点を置くようになります。
3) 推論時に回答出力直後に生成を停止できるため、推論効率も向上します。
ただし、ポストシンキングメカニズムは多くの利点をもたらし、特定のタスクにおける SLM の全体的なパフォーマンスを向上させますが、事前シンキングメカニズムと比較して、質問について考えたり、複雑な質問を単純なサブ質問に分解したりする能力が失われる可能性があります。
したがって、ソフトプロンプトチューニングを利用して、事前思考メカニズムと事後思考メカニズムの利点を統合するプラグアンドプレイの適応的思考メカニズムが提案されます。このメカニズムでは、SLMの回答を適応的に促すために知覚モジュールが導入されています。
または、質問の複雑さの認識に基づいて最初に考えます。
提案されたメカニズムの有効性を実証するために、12 の推論タスクと 2 つの代表的な言語モデルにわたって広範な実験が実施されました。

要約(オリジナル)

Chain of thought finetuning (cot-finetuning) aims to endow small language models (SLM) with reasoning ability to improve their performance towards specific tasks by allowing them to imitate the reasoning procedure of large language models (LLM) beyond simply predicting the answers. Most existing cot-finetuning methods adopt a pre-thinking mechanism, allowing the SLM to generate a rationale before providing an answer. This mechanism enables SLM to analyze and think about complex questions, but it also makes answer correctness highly sensitive to minor errors in rationale. Therefore, we propose a robust post-thinking mechanism to generate answers before rationale. Thanks to this answer-first setting, 1) the answer can escape from the adverse effects caused by minor errors in the rationale; 2) the rationale serves as an error amplifier to the answer, which makes the SLM focus on learning hard samples; 3) the inferring efficiency can also benefit from the setting since users can stop the generation right after answers are outputted when inference is conducted. However, although the post-thinking mechanism brings many advantages and improves the overall performance of SLM on specific tasks, it may lose the ability to think about the questions and decompose complex questions into simple sub-questions compared to pre-thinking mechanism. Therefore, a plug-and-play adaptive-thinking mechanism is proposed with the aid of the soft prompt tuning to integrate the merits of the pre-thinking mechanism and post-thinking mechanism, in which a perception module is introduced to adaptively prompt SLM answer or think first based on perceiving the complexity of the questions. Extensive experiments are conducted across 12 reasoning tasks and 2 representative language models to demonstrate the effectiveness of the proposed mechanism.

arxiv情報

著者 Xiaoshu Chen,Sihang Zhou,Ke Liang,Xinwang Liu
発行日 2024-08-15 10:12:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク