Resa: Transparent Reasoning Models via SAEs

要約

基礎となる表現を活用することにより、言語モデルの強い推論をどの程度費用効果に引き出すことができますか?
この質問には、斬新で効率的なスパースオートエンコーダーチューニング(SAE調整)手順を介して訓練された1.5B推論モデルのファミリであるRESAで答えます。
この方法は、最初にSAEをトレーニングしてソースモデルから推論能力をキャプチャし、次に訓練されたSAEを使用して、標準的な微調整プロセスを導き、ターゲットモデルでそのような能力を引き出すために、すべて推論された痕跡なしで検証された質問アンダーデータを使用します。
特に、トレーニング後のさらにRLの前に特定のベースモデルに適用すると、SAE-TuningはRLトレーニングを受けたカウンターパートの推論パフォーマンスの97%以上を保持しながら、トレーニングコストを> 2000倍に削減し、トレーニング時間を約450倍削減します。
さらに、軽く訓練されたモデル(たとえば、2 GPUで1時間以内)に適用すると、AIME24で43.33%パス@1、AMC23で90%パス@1などの推論パフォーマンスを可能にします。
驚くべきことに、SAEを介して抽出された推論能力は、一般化可能でモジュラーの両方です。
一般性とは、1つのデータセットから抽出された能力が、より大きくて重複するコーパスでパフォーマンスを向上させることを意味します。
モジュール性とは、QwenまたはQwen-Mathから抽出された能力をテスト時にR1-Distillモデルに添付することができ、再訓練なしに添付し、同等の利益をもたらすことができます。
広範なアブレーションは、これらの調査結果を検証し、すべてのアーティファクトは完全にオープンソースされています。

要約(オリジナル)

How cost-effectively can we elicit strong reasoning in language models by leveraging their underlying representations? We answer this question with Resa, a family of 1.5B reasoning models trained via a novel and efficient sparse autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to capture reasoning abilities from a source model, and then uses the trained SAE to guide a standard supervised fine-tuning process to elicit such abilities in a target model, all using verified question-answer data without any reasoning traces. Notably, when applied to certain base models before further RL post-training, SAE-Tuning retains >97% of its RL-trained counterpart’s reasoning performance while reducing training costs by >2000x to roughly \$1 and training time by >450x to around 20 minutes. Furthermore, when applied to lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only around \$1 additional cost. Surprisingly, the reasoning abilities extracted via SAEs are potentially both generalizable and modular. Generality means abilities extracted from one dataset still elevate performance on a larger and overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math can be attached to the R1-Distill model at test time, without any retraining, and yield comparable gains. Extensive ablations validate these findings and all artifacts are fully open-sourced.

arxiv情報

著者 Shangshang Wang,Julian Asilis,Ömer Faruk Akgül,Enes Burak Bilgin,Ollie Liu,Deqing Fu,Willie Neiswanger
発行日 2025-06-11 17:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク