要約
専門化された推論言語モデル(RLMS)は、詳細な推論トレースを介したテスト時間計算のスケーリングがパフォーマンスを大幅に向上させることを実証しています。
これらの痕跡は、より小さな命令チューニングされたモデルへの知識の蒸留を効果的に促進しますが、転送された推論の正確な性質は不明のままです。
この研究では、推論中に蒸留モデルが複製されたスタイルパターンを内在化する程度まで調査します。
この目的のために、推論のトレースを体系的に分析し、成功した推論を特徴付ける構造的および語彙パターンを特定します。
次に、蒸留モデルの推論能力に対する影響を正確に調べるために、これらの文体パターンを複製するために明示的に構築された、緊急推論の痕跡と合成データセットの2つの新しいデータセットを紹介します。
合成トレースでトレーニングされたモデルは、同等のパフォーマンスを実現し、蒸留された推論能力が表面レベルのパターンに大きく依存していることを示しています。
驚くべきことに、合成痕跡が変更されて間違った答えにつながる場合でも、パフォーマンスの増加が観察されます。
私たちの調査結果は、多様なモデルファミリ全体でLMの推論を効率的に強化するために、スタイルパターンを活用する方法を強調しています。
要約(オリジナル)
Specialized reasoning language models (RLMs) have demonstrated that scaling test-time computation through detailed reasoning traces significantly enhances performance. Although these traces effectively facilitate knowledge distillation into smaller, instruction-tuned models, the precise nature of transferred reasoning remains unclear. In this study, we investigate to what extent distilled models internalize replicated stylistic patterns during reasoning. To this end, we systematically analyze reasoning traces, identifying structural and lexical patterns that characterize successful reasoning. We then introduce two new datasets — a dataset of emergent reasoning traces and a synthetic dataset explicitly constructed to replicate these stylistic patterns — to precisely examine their influence on distilled models’ reasoning capabilities. We find that models trained on the synthetic traces achieve comparable performance, indicating that distilled reasoning abilities rely significantly on surface-level patterns. Surprisingly, we observe an increase in performance even when the synthetic traces are altered to lead to the wrong answer. Our findings highlight how stylistic patterns can be leveraged to efficiently enhance LM reasoning across diverse model families.
arxiv情報
著者 | Philip Lippmann,Jie Yang |
発行日 | 2025-04-02 13:50:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google