SCOTT: Self-Consistent Chain-of-Thought Distillation

要約

一定の規模を超える大規模言語モデル (LM) は、思考連鎖 (CoT) プロンプトを介して、予測に対するフリーテキストの根拠を生成する新たな機能を実証します。
CoT によりパフォーマンスが大幅に向上する可能性がありますが、そのような向上は十分に大きな LM でのみ観察されます。
さらに懸念されるのは、生成された理論的根拠が LM の予測と一致しているか、決定を忠実に正当化しているかという保証がほとんどないことです。
この研究では、桁違いに大きい教師モデルから小規模で自己矛盾のない CoT モデルを学習するための、忠実な知識の蒸留方法を提案します。
より良い監督を形成するために、対照的な解読によって大規模な LM (教師) から黄金の答えを裏付ける理論的根拠を引き出します。これにより、教師は、答えが考慮された場合にのみより妥当性が高まるトークンを生成するようになります。
忠実な蒸留を保証するために、私たちは教師が生成した理論的根拠を使用して、反事実的な推論の目標を持って生徒の LM を学習します。これにより、生徒が理論的根拠を無視して一貫性のない予測を行うことを防ぎます。
実験の結果、私たちの方法は、同等のエンドタスクのパフォーマンスをもたらしながら、ベースラインよりも忠実な CoT 理論的根拠を生成できることが示されています。
さらに分析すると、そのようなモデルは意思決定を行う際に理論的根拠をより尊重することが示唆されています。
したがって、その理論的根拠を洗練することで、パフォーマンスをさらに向上させることができます。

要約(オリジナル)

Large language models (LMs) beyond a certain scale, demonstrate the emergent capability of generating free-text rationales for their predictions via chain-of-thought (CoT) prompting. While CoT can yield dramatically improved performance, such gains are only observed for sufficiently large LMs. Even more concerning, there is little guarantee that the generated rationales are consistent with LM’s predictions or faithfully justify the decisions. In this work, we propose a faithful knowledge distillation method to learn a small, self-consistent CoT model from a teacher model that is orders of magnitude larger. To form better supervision, we elicit rationales supporting the gold answers from a large LM (teacher) by contrastive decoding, which encourages the teacher to generate tokens that become more plausible only when the answer is considered. To ensure faithful distillation, we use the teacher-generated rationales to learn a student LM with a counterfactual reasoning objective, which prevents the student from ignoring the rationales to make inconsistent predictions. Experiments show that, while yielding comparable end-task performance, our method can generate CoT rationales that are more faithful than baselines do. Further analysis suggests that such a model respects the rationales more when making decisions; thus, we can improve its performance more by refining its rationales.

arxiv情報

著者 Peifeng Wang,Zhengyang Wang,Zheng Li,Yifan Gao,Bing Yin,Xiang Ren
発行日 2023-08-30 21:28:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク