Towards Understanding Distilled Reasoning Models: A Representational Approach

要約

この論文では、モデル蒸留が大規模な言語モデル(LLM)の推論機能の開発にどのように影響するかを調査します。
これを探索するために、Qwenシリーズモデルとそれらの微調整されたバリアントでクロスコダーをトレーニングします。
我々の結果は、CrossCoderが、自己反省や計算検証など、さまざまなタイプの推論に対応する機能を学習することを示唆しています。
さらに、蒸留モデルには、モデルを過度の思考または鋭い考えモードに導くために使用できるユニークな推論機能の方向が含まれていることがわかります。
特に、4つの特定の推論カテゴリの分析を実行します。(a)自己反省、(b)演ductive的推論、(c)代替推論、および(d)対照的な推論。
最後に、蒸留プロセスに起因する特徴ジオメトリの変化を調べ、蒸留モデルがより多くの蒸留モデルがより構造化された表現を開発し、蒸留性能の向上と相関する可能性があることを見つけます。
蒸留がモデルをどのように修正するかについての洞察を提供することにより、私たちの研究はAIシステムの透明性と信頼性の向上に貢献します。

要約(オリジナル)

In this paper, we investigate how model distillation impacts the development of reasoning features in large language models (LLMs). To explore this, we train a crosscoder on Qwen-series models and their fine-tuned variants. Our results suggest that the crosscoder learns features corresponding to various types of reasoning, including self-reflection and computation verification. Moreover, we observe that distilled models contain unique reasoning feature directions, which could be used to steer the model into over-thinking or incisive-thinking mode. In particular, we perform analysis on four specific reasoning categories: (a) self-reflection, (b) deductive reasoning, (c) alternative reasoning, and (d) contrastive reasoning. Finally, we examine the changes in feature geometry resulting from the distillation process and find indications that larger distilled models may develop more structured representations, which correlate with enhanced distillation performance. By providing insights into how distillation modifies the model, our study contributes to enhancing the transparency and reliability of AI systems.

arxiv情報

著者 David D. Baek,Max Tegmark
発行日 2025-03-05 18:40:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク