要約
最近の研究では、思考連鎖 (CoT) プロンプトによって言語モデルを導き出し、複雑な推論タスクを段階的に解決できることが示されています。
ただし、プロンプトベースの CoT 手法は、GPT-3 175B などの非常に大規模なモデルに依存しており、大規模に展開するのは困難です。
このペーパーでは、これらの大規模モデルを推論教師として使用して、より小さなモデルで複雑な推論を可能にし、モデル サイズ要件を数桁削減します。
我々は、非常に大きな教師モデルから推論サンプルを生成してより小さなモデルを微調整する方法である Fine-tune-CoT を提案します。
私たちは、広範な公開モデルと複雑なタスクに基づいてメソッドを評価します。
Fine-tune-CoT は小規模モデルでかなりの推論機能を実現し、多くのタスクにおいてプロンプトベースのベースラインや教師モデルをはるかに上回るパフォーマンスを発揮することがわかりました。
さらに、教師モデルの機能を活用して、元のサンプルごとに複数の異なる根拠を生成することで、メソッドを拡張します。
このような多様な推論を使用して微調整データを強化すると、非常に小さなモデルであっても、データセット全体のパフォーマンスが大幅に向上します。
私たちは、学生モデルの推論能力の出現を理解するために、アブレーションとサンプル研究を実施します。
コードの実装とデータは https://github.com/itsnamgyu/reasoning-Teacher で入手できます。
要約(オリジナル)
Recent works have shown that chain-of-thought (CoT) prompting can elicit language models to solve complex reasoning tasks, step-by-step. However, prompt-based CoT methods are dependent on very large models such as GPT-3 175B which are prohibitive to deploy at scale. In this paper, we use these large models as reasoning teachers to enable complex reasoning in smaller models and reduce model size requirements by several orders of magnitude. We propose Fine-tune-CoT, a method that generates reasoning samples from very large teacher models to fine-tune smaller models. We evaluate our method on a wide range of public models and complex tasks. We find that Fine-tune-CoT enables substantial reasoning capability in small models, far outperforming prompt-based baselines and even the teacher model in many tasks. Additionally, we extend our method by leveraging the teacher model’s ability to generate multiple distinct rationales for each original sample. Enriching the fine-tuning data with such diverse reasoning results in a substantial performance boost across datasets, even for very small models. We conduct ablations and sample studies to understand the emergence of reasoning capabilities of student models. Our code implementation and data are available at https://github.com/itsnamgyu/reasoning-teacher.
arxiv情報
著者 | Namgyu Ho,Laura Schmid,Se-Young Yun |
発行日 | 2023-06-13 10:55:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google