Investigating Mysteries of CoT-Augmented Distillation

要約

「思考連鎖」(CoT) 理論的根拠 (「推論」プロセスを伝える一連のトークン) を引き出すと、質問応答などのタスクにおける LLM のパフォーマンスが一貫して向上することが示されています。
より最近の研究では、そのような理論的根拠がモデルの蒸留にも使用できることが示されています。小規模な生徒モデルを微調整するときに、ターゲット ラベルに加えて CoT シーケンス (大規模な「教師」モデルから導き出された) を含めると、(多くの場合大幅な) 改善が得られます。
この作業では、この追加のトレーニング信号がモデルの抽出になぜ、どのように役立つのかを尋ねます。
私たちはこれを調査するためにアブレーションを実行し、いくつかの驚くべき結果が得られる可能性があることを報告します。
具体的には: (1) CoT シーケンスをラベルの前ではなくラベルの後に配置すると、ダウンストリームのパフォーマンスが一貫して向上します。これは、テスト時に利点を実現するために学生の「推論」が必要ないことを意味します。
(2) この方法で理論的根拠が追加される場合、改善をもたらすためにそれらは一貫した推論シーケンスである必要はありません。
たとえば、CoT トークンの順列に対してパフォーマンスが向上します。
実際、(3) モデルの蒸留で完全な理論的根拠が使用された場合に観察される改善と同等の改善を達成するには、少数のキー トークンで十分です。

要約(オリジナル)

Eliciting ‘chain of thought’ (CoT) rationales — sequences of token that convey a ‘reasoning’ process — has been shown to consistently improve LLM performance on tasks like question answering. More recent efforts have shown that such rationales can also be used for model distillation: Including CoT sequences (elicited from a large ‘teacher’ model) in addition to target labels when fine-tuning a small student model yields (often substantial) improvements. In this work we ask: Why and how does this additional training signal help in model distillation? We perform ablations to interrogate this, and report some potentially surprising results. Specifically: (1) Placing CoT sequences after labels (rather than before) realizes consistently better downstream performance — this means that no student ‘reasoning’ is necessary at test time to realize gains. (2) When rationales are appended in this way, they need not be coherent reasoning sequences to yield improvements; performance increases are robust to permutations of CoT tokens, for example. In fact, (3) a small number of key tokens are sufficient to achieve improvements equivalent to those observed when full rationales are used in model distillation.

arxiv情報

著者 Somin Wadhwa,Silvio Amir,Byron C. Wallace
発行日 2024-06-20 17:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク