要約
大規模言語モデル (LLM) は、幅広い下流タスクにわたって優れたパフォーマンスを示しています。
この能力は、相当なパラメータ サイズと広範なコーパスでの事前トレーニングに起因すると考えられます。
さらに、LLMは、「思考連鎖(CoT)プロンプティング」と呼ばれる手法の利用により、複雑な推論タスクに取り組む際に強化された推論能力を示しました。
このメソッドは、最終的な答えの推論をガイドする中間推論ステップを生成するように設計されています。
ただし、これらの高度な推論能力は、少なくとも 100 億のパラメータを持つモデルで出現するようであり、そのため、計算リソースが制限されている状況ではその有効性が制限されることを強調することが重要です。
この論文では、知識の蒸留によって LLM の推論機能をより小さなモデルに移す可能性を調査します。
具体的には、根拠を生成するプロセスと答えを推測するプロセスを分離する 2 段階のフレームワークである Sci-CoT を提案します。
この方法により、答えの推論段階で理論的根拠をより効率的に使用できるようになり、科学的な質問に答えるタスクのパフォーマンスが向上します。
Sci-CoT を利用することで、当社の 8,000 万パラメータ モデルは、数ショット設定で ARC-Easy データセットの BLOOM-176B のパフォーマンスを超えることができます。
要約(オリジナル)
Large Language Models (LLMs) have shown outstanding performance across wide range of downstream tasks. This competency is attributed to their substantial parameter size and pre-training on extensive corpus. Moreover, LLMs have exhibited enhanced reasoning capabilities in tackling complex reasoning tasks, owing to the utilization of a method named “Chain-of-Thought (CoT) prompting”. This method is designed to generate intermediate reasoning steps that guide the inference of the final answer. However, it is essential to highlight that these advanced reasoning abilities appear to emerge in models with a minimum of 10 billion parameters, thereby limiting its efficacy in situations where computational resources are constrained. In this paper, we investigate the possibility of transferring the reasoning capabilities of LLMs to smaller models via knowledge distillation. Specifically, we propose Sci-CoT, a two-stage framework that separates the processes of generating rationales and inferring answers. This method enables a more efficient use of rationales during the answer inference stage, leading to improved performance on scientific question-answering tasks. Utilizing Sci-CoT, our 80-million parameter model is able to exceed the performance of BLOOM-176B in the ARC-Easy dataset under the few shot setting.
arxiv情報
| 著者 | Yuhan Ma,Haiqi Jiang,Chenyou Fan | 
| 発行日 | 2023-08-09 03:18:07+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
