要約
この論文では、$ \ textbf {ne} $ ural-$ \ textbf {sy} $ mbolic $ \ textbf {c} $ ollaborative $ \ textbf {d} $ intillation($ \ textbf {nesycd} $)、aを提案します。
大規模な言語モデルの複雑な推論能力を学習するための新しい知識蒸留方法(LLM、\ TextGreater 13b)。
これらのタスクは一般的な認知能力だけでなく、これらの神経ベースのSLMにとってまばらで困難な場合が多い専門的な知識も必要とするため、複雑な推論タスクは小言語モデル(SLM、$ \ leq $ 7b)にとって困難であると主張します。
効果的にキャプチャする。
したがって、NESYCDは、異なるマナーを使用して、LLMの一般的な能力と専門知識を蒸留します。
一方では、教師LLMSからパラメーター化されたニューラルネットワークの学生SLMに一般的な能力のみを蒸留します。
一方、複雑な推論タスクの専門的な能力と珍しい知識のために、象徴的な知識蒸留アプローチを採用して、象徴的な知識ベース(KB)内で専門知識を取得して保存します。
一般的な機能と専門的な機能を切り離すことにより、提案されたNESYCDは、より小さなモデルを利用し、パラメーター化されたニューラルネットワークをシンボリックKBとブレンディングすることで、コスト効率が高く優れたパフォーマンスを達成できます。
さらに、専門のKBはよく一般化され、人間によって理解され操作されています。
私たちの実験は、NESYCDが領域内(BBH、GSM8K)およびドメイン外(Agieval、ARC)データセットのSLMSの複雑な推論パフォーマンスを大幅に向上させることを示しています。
特に、私たちのアプローチにより、Llama3-8BとQWEN2-7BがパフォーマンスでGPT-3.5ターボを上回り、ラマ3-70Bのマッチングに近づくことができました。
私たちのコードは、https://github.com/xnhyacinth/nesycdで入手できます。
要約(オリジナル)
In this paper, we propose $\textbf{Ne}$ural-$\textbf{Sy}$mbolic $\textbf{C}$ollaborative $\textbf{D}$istillation ($\textbf{NesyCD}$), a novel knowledge distillation method for learning the complex reasoning abilities of Large Language Models (LLMs, e.g., \textgreater 13B). We argue that complex reasoning tasks are difficult for Small Language Models (SLMs, e.g., $\leq$ 7B), as these tasks demand not only general cognitive abilities but also specialized knowledge, which is often sparse and difficult for these neural-based SLMs to effectively capture. Therefore, NesyCD distills the general capabilities and specialized knowledge in LLMs using different manners. On the one hand, we distill only general abilities from teacher LLMs into the student SLMs of parameterized neural networks. On the other hand, for the specialized abilities and uncommon knowledge of a complex reasoning task, we employ a symbolic knowledge distillation approach to obtain and store the specialized knowledge within a symbolic knowledge base (KB). By decoupling general and specialized capabilities, the proposed NesyCD can achieve superior performance cost-effectively, utilizing smaller models and blending parameterized neural networks with symbolic KB. Moreover, the specialized KB generalizes well and is comprehended and manipulated by humans. Our experiments show that NesyCD significantly boosts SLMs’ complex reasoning performance on in-domain (BBH, GSM8K) and out-of-domain (AGIEval, ARC) datasets. Notably, our approach enabled the LLaMA3-8B and Qwen2-7B to surpass GPT-3.5-turbo in performance and come close to matching LLaMA3-70B, despite the latter having nine times more parameters. Our code will be available at https://github.com/Xnhyacinth/NesyCD.
arxiv情報
著者 | Huanxuan Liao,Shizhu He,Yao Xu,Yuanzhe Zhang,Kang Liu,Jun Zhao |
発行日 | 2025-02-07 11:45:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google