MCC-KD: Multi-CoT Consistent Knowledge Distillation

要約

大規模言語モデル (LLM) は、思考連鎖 (CoT) プロンプトによる複雑な推論において優れた能力を示しています。
最近、これらの推論能力を LLM からより小さなモデルに移すことへの関心が高まっています。
ただし、理論的根拠の多様性と一貫性の両方を達成することには課題が伴います。
この論文では、これら 2 つの側面を強化することに焦点を当て、推論能力を効率的に抽出するための Multi-CoT Consistent Knowledge Distillation (MCC-KD) を提案します。
MCC-KD では、質問ごとに複数の根拠を生成し、回答分布間の双方向の KL 発散を最小限に抑えることで、対応する予測間の一貫性を確保します。
数学的推論と常識的推論の両方のベンチマークについて、さまざまなモデル アーキテクチャ (LLaMA/FlanT5) とさまざまなモデル スケール (3B/7B/11B/13B) を使用した MCC-KD の有効性を調査します。
この実証結果は、分布内データセットに対する MCC-KD の優れたパフォーマンスを裏付けるだけでなく、分布外データセットに対するその堅牢な一般化能力も強調しています。

要約(オリジナル)

Large language models (LLMs) have showcased remarkable capabilities in complex reasoning through chain of thought (CoT) prompting. Recently, there has been a growing interest in transferring these reasoning abilities from LLMs to smaller models. However, achieving both the diversity and consistency in rationales presents a challenge. In this paper, we focus on enhancing these two aspects and propose Multi-CoT Consistent Knowledge Distillation (MCC-KD) to efficiently distill the reasoning capabilities. In MCC-KD, we generate multiple rationales for each question and enforce consistency among the corresponding predictions by minimizing the bidirectional KL-divergence between the answer distributions. We investigate the effectiveness of MCC-KD with different model architectures (LLaMA/FlanT5) and various model scales (3B/7B/11B/13B) on both mathematical reasoning and commonsense reasoning benchmarks. The empirical results not only confirm MCC-KD’s superior performance on in-distribution datasets but also highlight its robust generalization ability on out-of-distribution datasets.

arxiv情報

著者 Hongzhan Chen,Siyue Wu,Xiaojun Quan,Rui Wang,Ming Yan,Ji Zhang
発行日 2023-12-20 06:50:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク