Distilling System 2 into System 1

要約

大規模言語モデル (LLM) は、中間思考を生成するために推論中に余分な計算を費やすことができ、これはより良い最終応答を生成するのに役立ちます。
Chain-of-Thought (Wei et al., 2022) 以来、Rephrase and Respond (Deng et al., 2023a)、System 2 Attending (Weston and Sukhbaatar, 2023)、Branch-
ソルブマージ (Saha et al., 2023)。
この研究では、この推論がシステム 1 に蒸留されているため、中間推論トークン シーケンスを使用せずに、システム 2 手法からの高品質の出力を LLM 世代に「コンパイル」(蒸留) する自己教師ありの方法を調査します。
技術をうまく蒸留することができ、元のシステム 1 のパフォーマンスと比較して結果が向上し、システム 2 よりも少ない推論コストで済みます。このようなシステム 2 の蒸留は、将来の継続学習 AI システムの重要な機能となり、システムが集中できるようになると仮定しています。
システム 2 は、まだうまく実行できない推論タスクの能力を備えています。

要約(オリジナル)

Large language models (LLMs) can spend extra compute during inference to generate intermediate thoughts, which helps to produce better final responses. Since Chain-of-Thought (Wei et al., 2022), many such System 2 techniques have been proposed such as Rephrase and Respond (Deng et al., 2023a), System 2 Attention (Weston and Sukhbaatar, 2023) and Branch-Solve-Merge (Saha et al., 2023). In this work we investigate self-supervised methods to “compile” (distill) higher quality outputs from System 2 techniques back into LLM generations without intermediate reasoning token sequences, as this reasoning has been distilled into System 1. We show that several such techniques can be successfully distilled, resulting in improved results compared to the original System 1 performance, and with less inference cost than System 2. We posit that such System 2 distillation will be an important feature of future continually learning AI systems, enabling them to focus System 2 capabilities on the reasoning tasks that they cannot yet do well.

arxiv情報

著者 Ping Yu,Jing Xu,Jason Weston,Ilia Kulikov
発行日 2024-07-08 15:17:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク