Mentor-KD: Making Small Language Models Better Multi-step Reasoners

要約

大規模言語モデル (LLM) は、思考連鎖 (CoT) プロンプトを活用することで、さまざまな複雑なタスクにわたって優れたパフォーマンスを示しています。
最近の研究では、知識蒸留(KD)アプローチである推論蒸留が提案されています。これは、LLM教師によって生成された複数ステップの理論的根拠の言語モデルを微調整することによって、LLMのそのような推論能力を伝達します。
しかし、彼らは、1) データ品質と 2) ソフトラベルの提供という観点から、LLM 教師モデルからの不十分な蒸留セットに関する 2 つの課題を十分に考慮していませんでした。
この論文では、前述の課題に対処しながら、LLM の複数ステップの推論能力をより小さな LM に効果的に抽出する Mentor-KD を提案します。
具体的には、中規模のタスク固有の微調整モデルであるメンターを活用して、追加の CoT アノテーションを強化し、推論蒸留中に学生モデルにソフト ラベルを提供します。
私たちは広範な実験を実施し、さまざまなモデルや複雑な推論タスクにわたる Mentor-KD の有効性を確認しています。

要約(オリジナル)

Large Language Models (LLMs) have displayed remarkable performances across various complex tasks by leveraging Chain-of-Thought (CoT) prompting. Recently, studies have proposed a Knowledge Distillation (KD) approach, reasoning distillation, which transfers such reasoning ability of LLMs through fine-tuning language models of multi-step rationales generated by LLM teachers. However, they have inadequately considered two challenges regarding insufficient distillation sets from the LLM teacher model, in terms of 1) data quality and 2) soft label provision. In this paper, we propose Mentor-KD, which effectively distills the multi-step reasoning capability of LLMs to smaller LMs while addressing the aforementioned challenges. Specifically, we exploit a mentor, intermediate-sized task-specific fine-tuned model, to augment additional CoT annotations and provide soft labels for the student model during reasoning distillation. We conduct extensive experiments and confirm Mentor-KD’s effectiveness across various models and complex reasoning tasks.

arxiv情報

著者 Hojae Lee,Junho Kim,SangKeun Lee
発行日 2024-10-11 17:53:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク