要約
大規模な言語モデル(LLM)は複雑な推論タスクに優れており、推論機能をより小さなモデルに蒸留することが有望であることを示しています。
ただし、興味深い現象を明らかにします。これは、小さなモデルの学習性ギャップと呼ばれます。小さなモデル($ \ leq $ 3bパラメーター)は、長い考え方(COT)の推論またはより大きなモデルからの蒸留から一貫して恩恵を受けません。
代わりに、彼らの固有の学習能力とよりよく整合する、より短く、よりシンプルな推論チェーンで微調整されると、彼らはより良くパフォーマンスを発揮します。
これに対処するために、ミックス蒸留を提案します。これは、大規模なモデルと小さなモデルの両方から長いCOTの例や推論を組み合わせることにより、推論の複雑さのバランスをとるシンプルで効果的な戦略です。
私たちの実験は、混合蒸留により、いずれかのデータだけでのトレーニングと比較して、小さなモデル推論パフォーマンスが大幅に向上することを示しています。
これらの調査結果は、直接的な強力なモデルの蒸留の制限を強調し、効果的な推論能力転送のために推論の複雑さを適応させることの重要性を強調しています。
要約(オリジナル)
Large language models (LLMs) excel in complex reasoning tasks, and distilling their reasoning capabilities into smaller models has shown promise. However, we uncover an interesting phenomenon, which we term the Small Model Learnability Gap: small models ($\leq$3B parameters) do not consistently benefit from long chain-of-thought (CoT) reasoning or distillation from larger models. Instead, they perform better when fine-tuned on shorter, simpler reasoning chains that better align with their intrinsic learning capacity. To address this, we propose Mix Distillation, a simple yet effective strategy that balances reasoning complexity by combining long and short CoT examples or reasoning from both larger and smaller models. Our experiments demonstrate that Mix Distillation significantly improves small model reasoning performance compared to training on either data alone. These findings highlight the limitations of direct strong model distillation and underscore the importance of adapting reasoning complexity for effective reasoning capability transfer.
arxiv情報
著者 | Yuetai Li,Xiang Yue,Zhangchen Xu,Fengqing Jiang,Luyao Niu,Bill Yuchen Lin,Bhaskar Ramasubramanian,Radha Poovendran |
発行日 | 2025-02-17 18:56:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google