Turning Dust into Gold: Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data

要約

大規模言語モデル (LLM) は、さまざまな推論タスクでうまく機能しますが、そのアクセスの難しさとパラメータの多さが、実際の幅広い応用の妨げとなっています。
有望な方法の 1 つは、生成された思考連鎖推論パスによって LLM から小さなモデルに推論能力を抽出することです。
ただし、場合によっては、特に複雑な数学的問題に直面した場合に、LLM が誤った推論チェーンを生成する可能性があります。
これまでの研究では、肯定的なサンプルからの知識のみが伝達され、間違った答えを含む合成データは削除されていました。
この研究では、負のデータの利点を説明し、正のサンプルに加えて負のサンプルを使用して LLM を抽出するためのモデル特化フレームワークを提案します。
このフレームワークは、トレーニングから推論段階までをカバーする 3 つの段階的なステップで構成され、ネガティブ データから知識を吸収します。
私たちは、LLM からの蒸留における負のデータの役割を実証するために、算術推論タスク全体にわたって広範な実験を実施します。

要約(オリジナル)

Large Language Models (LLMs) have performed well on various reasoning tasks, but their inaccessibility and numerous parameters hinder wide application in practice. One promising way is distilling the reasoning ability from LLMs to small models by the generated chain-of-thought reasoning paths. In some cases, however, LLMs may produce incorrect reasoning chains, especially when facing complex mathematical problems. Previous studies only transfer knowledge from positive samples and drop the synthesized data with wrong answers. In this work, we illustrate the merit of negative data and propose a model specialization framework to distill LLMs with negative samples besides positive ones. The framework consists of three progressive steps, covering from training to inference stages, to absorb knowledge from negative data. We conduct extensive experiments across arithmetic reasoning tasks to demonstrate the role of negative data in distillation from LLM.

arxiv情報

著者 Yiwei Li,Peiwen Yuan,Shaoxiong Feng,Boyuan Pan,Bin Sun,Xinglin Wang,Heda Wang,Kan Li
発行日 2023-12-20 08:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク