Finding Transformer Circuits with Edge Pruning

要約

言語モデルの解釈への道は、多くの場合、回路の分析を介して進行します。これは、その動作の特定の側面をキャプチャするモデルのまばらな計算サブグラフです。
最近の作業により、回路を発見するタスクが自動化されています。
しかし、これらの方法には、非効率的な検索アルゴリズムまたは不正確な近似のいずれかに依存するため、これらの方法には実際的な制限があります。
この論文では、自動回路の発見を最適化問題としてフレーム化し、効果的でスケーラブルなソリューションとして *エッジプルニング *を提案します。
エッジプルーニングは、グラデーションベースのプルーニング技術を活用しますが、ニューロンまたはコンポーネントを除去する代わりに、コンポーネント間で\ emphing {エッジ}を剪定します。
私たちの方法では、GPT-2の回路を見つけます。これは、以前の方法で見つかった回路と比較してエッジの数の半分未満を使用し、標準的な回路発見タスクの完全なモデル予測に等しく忠実であることを見つけます。
エッジプルーニングは、最大100,000の例でも効率的であり、以前の方法を速度で上回り、実質的に優れた回路を生成します。
また、TRACRでコンパイルされた2つのモデルの地上回路を完全に回復します。
その効率のおかげで、Edge PruningはCodellama-13Bにスケーリングします。これは、以前の方法が動作するスケールの100倍以上のモデルです。
この設定を使用して、命令プロンプトとコンテキスト内学習の背後にあるメカニズムを比較したケーススタディに使用します。
完全なモデルのパフォーマンスに一致する99.96%以上のスパース性を持つ2つの回路が見つかり、2つの設定のメカニズムが大幅に重複していることがわかります。
私たちのケーススタディは、エッジプルーニングは解釈可能性のための実用的でスケーラブルなツールであり、大きなモデルでのみ出現する動作に光を当てていることを示しています。

要約(オリジナル)

The path to interpreting a language model often proceeds via analysis of circuits — sparse computational subgraphs of the model that capture specific aspects of its behavior. Recent work has automated the task of discovering circuits. Yet, these methods have practical limitations, as they rely either on inefficient search algorithms or inaccurate approximations. In this paper, we frame automated circuit discovery as an optimization problem and propose *Edge Pruning* as an effective and scalable solution. Edge Pruning leverages gradient-based pruning techniques, but instead of removing neurons or components, it prunes the \emph{edges} between components. Our method finds circuits in GPT-2 that use less than half the number of edges compared to circuits found by previous methods while being equally faithful to the full model predictions on standard circuit-finding tasks. Edge Pruning is efficient even with as many as 100K examples, outperforming previous methods in speed and producing substantially better circuits. It also perfectly recovers the ground-truth circuits in two models compiled with Tracr. Thanks to its efficiency, we scale Edge Pruning to CodeLlama-13B, a model over 100x the scale that prior methods operate on. We use this setting for a case study comparing the mechanisms behind instruction prompting and in-context learning. We find two circuits with more than 99.96% sparsity that match the performance of the full model and reveal that the mechanisms in the two settings overlap substantially. Our case study shows that Edge Pruning is a practical and scalable tool for interpretability and sheds light on behaviors that only emerge in large models.

arxiv情報

著者 Adithya Bhaskar,Alexander Wettig,Dan Friedman,Danqi Chen
発行日 2025-04-02 15:50:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Finding Transformer Circuits with Edge Pruning はコメントを受け付けていません

Multilingual European Language Models: Benchmarking Approaches and Challenges

要約

チャットの相互作用を通じてさまざまなタスクを解決できる生成大型言語モデル(LLMS)のブレークスルーにより、一般的なベンチマークの使用が大幅に増加し、個々のアプリケーションを超えてこれらのモデルの品質またはパフォーマンスを評価しました。
また、公開されている新しいモデルの数が増え続けるため、評価するためのより良い方法やモデルを比較する必要があります。
ただし、確立されたベンチマークのほとんどは英語を中心に展開しています。
このペーパーでは、現在の評価データセットの利点と制限を分析し、多言語のヨーロッパのベンチマークに焦点を当てています。
7つの多言語ベンチマークを分析し、4つの主要な課題を特定します。
さらに、翻訳の品質を高め、ループ内の検証や反復翻訳ランキングなど、文化的バイアスを軽減する潜在的なソリューションについて説明します。
私たちの分析では、多言語LLMの推論と疑問能力を正確に評価するために、文化的に認識され、厳密に検証されたベンチマークの必要性を強調しています。

要約(オリジナル)

The breakthrough of generative large language models (LLMs) that can solve different tasks through chat interaction has led to a significant increase in the use of general benchmarks to assess the quality or performance of these models beyond individual applications. There is also a need for better methods to evaluate and also to compare models due to the ever increasing number of new models published. However, most of the established benchmarks revolve around the English language. This paper analyses the benefits and limitations of current evaluation datasets, focusing on multilingual European benchmarks. We analyse seven multilingual benchmarks and identify four major challenges. Furthermore, we discuss potential solutions to enhance translation quality and mitigate cultural biases, including human-in-the-loop verification and iterative translation ranking. Our analysis highlights the need for culturally aware and rigorously validated benchmarks to assess the reasoning and question-answering capabilities of multilingual LLMs accurately.

arxiv情報

著者 Fabio Barth,Georg Rehm
発行日 2025-04-02 16:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multilingual European Language Models: Benchmarking Approaches and Challenges はコメントを受け付けていません

DEPT: Decoupled Embeddings for Pre-training Language Models

要約

言語モデルのプリトレーニングでは、幅広いデータ混合物を使用して、ドメインと言語間のパフォーマンスを向上させます。
ただし、このような不均一なテキストコーパスのトレーニングには、広範で高価な努力が必要です。
これらのデータソースは語彙、構文、およびセマンティックの側面では大幅に異なるため、負の干渉または「多言語性の呪い」を引き起こします。
これらの課題に対処するために、私たちはコミュニケーション効率の良い事前訓練フレームワークであるDeptを提案します。
私たちの方法は、変圧器の本体からの埋め込みを切り離し、同時に共有の語彙を必要とせずに複数のデータソースで後者をトレーニングします。
(1)重要なデータの不均一性の下で堅牢かつ効果的に訓練すること、(2)データソースの語彙が必要とするものにトークンの埋め込みパラメーターを最小限に抑え、通信頻度とパラメーターの削減の両方に直接比例して通信コストを削減します。
データソースごとの語彙。
私たちは、10億個のスケールモデルの最初の語彙に依存しない連合前訓練を介して部門の可能性を示し、コミュニケーションコストを桁違いに削減し、記憶を4-5倍に埋め込みます。

要約(オリジナル)

Language Model pre-training uses broad data mixtures to enhance performance across domains and languages. However, training on such heterogeneous text corpora requires extensive and expensive efforts. Since these data sources vary significantly in lexical, syntactic, and semantic aspects, they cause negative interference or the “curse of multilinguality”. To address these challenges we propose a communication-efficient pre-training framework, DEPT. Our method decouples embeddings from the transformer body while simultaneously training the latter on multiple data sources without requiring a shared vocabulary. DEPT can: (1) train robustly and effectively under significant data heterogeneity, (2) minimize token embedding parameters to only what the data source vocabulary requires, while cutting communication costs in direct proportion to both the communication frequency and the reduction in parameters, (3) enhance transformer body plasticity and generalization, improving both average perplexity (up to 20%) and downstream task performance, and (4) enable training with custom optimized vocabularies per data source. We demonstrate DEPT’s potential via the first vocabulary-agnostic federated pre-training of billion-scale models, reducing communication costs by orders of magnitude and embedding memory by 4-5x.

arxiv情報

著者 Alex Iacob,Lorenzo Sani,Meghdad Kurmanji,William F. Shen,Xinchi Qiu,Dongqi Cai,Yan Gao,Nicholas D. Lane
発行日 2025-04-02 17:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | DEPT: Decoupled Embeddings for Pre-training Language Models はコメントを受け付けていません

Code Generation and Algorithmic Problem Solving Using Llama 3.1 405B

要約

MetaのLlama 3.1 405bなどのLlama 3.1モデルによるコード生成は、人工知能の分野、特に自然言語処理とプログラミングの自動化における大幅な進歩を表しています。
このペーパーでは、Llama駆動型のコード生成の機能とアプリケーションを調査し、複数のプログラミング言語で自然言語プロンプトを実行可能コードに変換する能力を強調しています。
主な機能には、コンテキストの認識、多言語サポート、デバッグと最適化の機能強化が含まれます。
これらの側面を調べることにより、ラマがすべてのスキルレベルの開発者にとって汎用性の高いツールとしてどのように役立つかを示し、ソフトウェア開発の生産性と効率を向上させます。
教育、産業、およびコーディング慣行の将来に対する潜在的な影響についても議論され、プログラミングにおけるAIの変革的影響を強調しています。
実験では、Llama 3.1 405bは単純なアルゴリズムおよびデータ構造ベースの問題でうまく機能しますが、量子コンピューティング、バイオインフォマティクス、および人工知能に関する問題に依然として闘っています。

要約(オリジナル)

Code generation by Llama 3.1 models, such as Meta’s Llama 3.1 405B, represents a significant advancement in the field of artificial intelligence, particularly in natural language processing and programming automation. This paper explores the capabilities and applications of Llama-driven code generation, highlighting its ability to translate natural language prompts into executable code across multiple programming languages. Key features include contextual awareness, multi-language support, and enhanced debugging and optimization functionalities. By examining these aspects, we illustrate how Llama can serve as a versatile tool for developers of all skill levels, improving productivity and efficiency in software development. The potential implications for education, industry, and the future of coding practices are also discussed, underscoring the transformative impact of AI in programming. Experimentation shows that while Llama 3.1 405B performs well with simple algorithmic and data structure based problems, it still struggles with problems on Quantum Computing, Bioinformatics, and Artificial Intelligence.

arxiv情報

著者 Aniket Deroy,Subhankar Maity
発行日 2025-04-02 17:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | Code Generation and Algorithmic Problem Solving Using Llama 3.1 405B はコメントを受け付けていません

Is the Reversal Curse a Binding Problem? Uncovering Limitations of Transformers from a Basic Generalization Failure

要約

それらの印象的な能力にもかかわらず、LLMは逆転呪いとして知られる基本的な一般化障害を示し、そこでは可逆的な事実の関連を学ぶのに苦労しています。
これが発生する理由を理解することで、現在のモデルの弱点を特定し、一般化と堅牢性を向上させることができます。
この論文では、LLMSの逆転呪いは、認知科学、神経科学、AIにおける長年の結合問題の現れであると推測します。
具体的には、概念の結合における変圧器の制限に起因する反転呪いの2つの主要な原因を特定します。概念表現の矛盾と絡み合いです。
これらの推測を​​サポートする一連の実験を実行します。
私たちの探査は、JEPA(共同埋め込み予測アーキテクチャ)に基づくモデル設計につながり、初めて特殊なデータの増強または非因果マスキングでサイドステップすることなく逆転の呪いを破り、さらに、一般化をさらに改善することができます。
逆転のスキルは、モデルがパラメトリックな前方チェーンを介して大規模な算術推論の問題を解決できるようにする新しい種類のメモリ統合を解き放つことを実証します。

要約(オリジナル)

Despite their impressive capabilities, LLMs exhibit a basic generalization failure known as the Reversal Curse, where they struggle to learn reversible factual associations. Understanding why this occurs could help identify weaknesses in current models and advance their generalization and robustness. In this paper, we conjecture that the Reversal Curse in LLMs is a manifestation of the long-standing binding problem in cognitive science, neuroscience and AI. Specifically, we identify two primary causes of the Reversal Curse stemming from transformers’ limitations in conceptual binding: the inconsistency and entanglements of concept representations. We perform a series of experiments that support these conjectures. Our exploration leads to a model design based on JEPA (Joint-Embedding Predictive Architecture) that for the first time breaks the Reversal Curse without side-stepping it with specialized data augmentation or non-causal masking, and moreover, generalization could be further improved by incorporating special memory layers that support disentangled concept representations. We demonstrate that the skill of reversal unlocks a new kind of memory integration that enables models to solve large-scale arithmetic reasoning problems via parametric forward-chaining, outperforming frontier LLMs based on non-parametric memory and prolonged explicit reasoning.

arxiv情報

著者 Boshi Wang,Huan Sun
発行日 2025-04-02 17:38:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Is the Reversal Curse a Binding Problem? Uncovering Limitations of Transformers from a Basic Generalization Failure はコメントを受け付けていません

Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection

要約

AIエージェントはさまざまなタスクで顕著なパフォーマンスを示していますが、複雑なマルチモーダルアプリケーション、構造化された生成、戦略的計画に苦労しています。
解決剤のタスクは通常、モデルパラメーターを制御せずにブラックボックスAPIアクセスに依存しているため、標準の微調整による改善は非現実的です。
Best-of-n(bon)サンプリングなどの推論時間方法は、パフォーマンスを改善するためのシンプルで効果的な代替手段を提供します。
ただし、Bonには反復フィードバック統合メカニズムがありません。
したがって、反復的な洗練と動的候補の評価と検証者が導く選択を組み合わせた反復剤デコード(IAD)を提案します。
IADは、フィードバックがどのように設計および統合され、報酬スコアから最大信号を抽出するように最適化されているかが異なります。
IADが一貫してベースラインを上回るSketch2Code、Text2SQL、およびWebShopの主要なメトリックにわたるベースラインの詳細な比較を実施し、Sketch2CodeとText2SQLで3-6%の絶対的な利益を達成し(LLMジャッジを使用している場合となし)、複数のメトリック全体のWebShopで8-10%のゲインを達成します。
IADの利益の原因をよりよく理解するために、確率的サンプリングからの適応フィードバックの効果を解くために制御された実験を実行し、IADの改善は、単に多様性をサンプリングするのではなく、検証剤誘導の改良によって促進されていることがわかります。
また、IADとBonの両方が、最適な検証剤に導かれた場合、計算が増加した場合に推論時間スケーリングを展示することを示しています。
私たちの分析は、効果的な推論時間最適化における検証剤の品質の重要な役割を強調し、スケーリング動作に対するノイズとスパースの報酬の影響を調べます。
一緒に、これらの調査結果は、効果的な推論時間最適化のトレードオフと原則に関する重要な洞察を提供します。

要約(オリジナル)

While AI agents have shown remarkable performance at various tasks, they still struggle with complex multi-modal applications, structured generation and strategic planning. Improvements via standard fine-tuning is often impractical, as solving agentic tasks usually relies on black box API access without control over model parameters. Inference-time methods such as Best-of-N (BON) sampling offer a simple yet effective alternative to improve performance. However, BON lacks iterative feedback integration mechanism. Hence, we propose Iterative Agent Decoding (IAD) which combines iterative refinement with dynamic candidate evaluation and selection guided by a verifier. IAD differs in how feedback is designed and integrated, specifically optimized to extract maximal signal from reward scores. We conduct a detailed comparison of baselines across key metrics on Sketch2Code, Text2SQL, and Webshop where IAD consistently outperforms baselines, achieving 3–6% absolute gains on Sketch2Code and Text2SQL (with and without LLM judges) and 8–10% gains on Webshop across multiple metrics. To better understand the source of IAD’s gains, we perform controlled experiments to disentangle the effect of adaptive feedback from stochastic sampling, and find that IAD’s improvements are primarily driven by verifier-guided refinement, not merely sampling diversity. We also show that both IAD and BON exhibit inference-time scaling with increased compute when guided by an optimal verifier. Our analysis highlights the critical role of verifier quality in effective inference-time optimization and examines the impact of noisy and sparse rewards on scaling behavior. Together, these findings offer key insights into the trade-offs and principles of effective inference-time optimization.

arxiv情報

著者 Souradip Chakraborty,Mohammadreza Pourreza,Ruoxi Sun,Yiwen Song,Nino Scherrer,Jindong Gu,Furong Huang,Amrit Singh Bedi,Ahmad Beirami,Hamid Palangi,Tomas Pfister
発行日 2025-04-02 17:40:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection はコメントを受け付けていません

OpenCodeReasoning: Advancing Data Distillation for Competitive Coding

要約

推論に基づいた大規模な言語モデルの出現以来、多くの人は、推論能力を学生モデルに蒸留することで大きな成功を収めています。
このような手法は、コーディングタスクに関する推論と標準LLMの間のギャップを大幅に埋めました。
それにもかかわらず、蒸留推論モデルの進展の多くは、独自のデータセットの背後にロックされたままであるか、データのキュレーション、フィルタリング、およびその後のトレーニングの詳細がありません。
これに対処するために、最先端のコーディング機能を達成するために使用する優れた監視付き微調整(SFT)データセットを構築します。
私たちの蒸留モデルは、SFTのみを使用して、LiveCodebenchで61.8%、CodeContestsで24.6%を達成し、強化学習で訓練された代替品を超えています。
次に、データセット、コード実行フィルタリングの影響、および命令/ソリューションの多様性の重要性を構築するために使用されるデータソースの分析を実行します。
実行フィルタリングがベンチマークの精度に悪影響を及ぼし、ソリューションの正確性よりも指導の多様性に優先順位を付けることになっていることがわかります。
最後に、これらのモデルで利用されるトークンの効率と推論パターンも分析します。
これらのデータセットと蒸留モデルをコミュニティにオープンソーシングします。

要約(オリジナル)

Since the advent of reasoning-based large language models, many have found great success from distilling reasoning capabilities into student models. Such techniques have significantly bridged the gap between reasoning and standard LLMs on coding tasks. Despite this, much of the progress on distilling reasoning models remains locked behind proprietary datasets or lacks details on data curation, filtering and subsequent training. To address this, we construct a superior supervised fine-tuning (SFT) dataset that we use to achieve state-of-the-art coding capability results in models of various sizes. Our distilled models use only SFT to achieve 61.8% on LiveCodeBench and 24.6% on CodeContests, surpassing alternatives trained with reinforcement learning. We then perform analysis on the data sources used to construct our dataset, the impact of code execution filtering, and the importance of instruction/solution diversity. We observe that execution filtering negatively affected benchmark accuracy, leading us to prioritize instruction diversity over solution correctness. Finally, we also analyze the token efficiency and reasoning patterns utilized by these models. We will open-source these datasets and distilled models to the community.

arxiv情報

著者 Wasi Uddin Ahmad,Sean Narenthiran,Somshubra Majumdar,Aleksander Ficek,Siddhartha Jain,Jocelyn Huang,Vahid Noroozi,Boris Ginsburg
発行日 2025-04-02 17:50:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | OpenCodeReasoning: Advancing Data Distillation for Competitive Coding はコメントを受け付けていません

Interpretable Steering of Large Language Models with Feature Guided Activation Additions

要約

大規模な言語モデル(LLM)の動作に対する効果的かつ信頼できる制御は、重要な課題です。
モデルの隠された状態にステアリングベクトルを追加するアクティベーションステアリング方法は有望なアプローチですが、既存の手法は、モデル出力にどのように影響するかに精度と解釈性を欠いていることがよくあります。
Contrastive Activationの追加(CAA)およびスパースオートエンコーダーターゲットステアリング(SAE-TS)から洞察を活用する新しいアクティベーションステアリング方法である機能ガイド付きアクティベーション追加(FGAA)を紹介します。
スパースオートエンコーダー(SAE)の潜在スペースを操作し、最適化技術を使用して目的のSAE機能を選択することにより、FGAAは、ステアリングモデル出力のコヒーレンスを維持しながらより良いステアリング効果を提供する正確なステアリングベクターを構築します。
この点で、さまざまなステアリングタスクにわたるGEMMA-2-2BおよびGEMMA-2-9Bモデルの評価は、FGAAがCAA、SAEデコーダーステア​​リング、およびSAE-TSの既存のステアリング方法を上回ることを示しています。
また、私たちの結果は、ステアリングスケールと、テストされたすべてのステアリング方法で一貫している一般的なモデル機能との間の重要なトレードオフを強調しています。

要約(オリジナル)

Effective and reliable control over large language model (LLM) behavior is a significant challenge. While activation steering methods, which add steering vectors to a model’s hidden states, are a promising approach, existing techniques often lack precision and interpretability in how they influence model outputs. We introduce Feature Guided Activation Additions (FGAA), a novel activation steering method that leverages insights from Contrastive Activation Addition (CAA) and Sparse Autoencoder-Targeted Steering (SAE-TS). By operating in the latent space of a Sparse Autoencoder (SAE) and employing optimization techniques to select desired SAE features, FGAA constructs precise steering vectors that provide better steering effects while maintaining coherence of steered model outputs. In this regard, evaluations on Gemma-2-2B and Gemma-2-9B models across various steering tasks demonstrate that FGAA outperforms existing steering methods of CAA, SAE decoder steering, and SAE-TS. Our results also highlight important trade-offs between steering scale and general model capabilities that are consistent across all tested steering methods.

arxiv情報

著者 Samuel Soo,Chen Guang,Wesley Teng,Chandrasekaran Balaganesh,Tan Guoxian,Yan Ming
発行日 2025-04-02 13:20:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Interpretable Steering of Large Language Models with Feature Guided Activation Additions はコメントを受け付けていません

Epistemic Skills: Reasoning about Knowledge and Oblivion

要約

このペーパーでは、グループ知識の概念を取り入れながら、知識を獲得し、忘却に降りるというダイナミクスを捉えた認識論的ロジックのクラスを紹介します。
このアプローチは、加重モデルのシステムに基づいており、知識の更新に関連する認識論的能力を表す「認識スキル」メトリックを導入します。
このフレームワーク内では、知識の習得はアップスキルのプロセスとしてモデル化されますが、忘却はスキルダウンの結果として表されます。
このフレームワークは、さらに「知識」と「忘れができない」の調査を可能にします。これは、それぞれ高級スキーを通して知識を獲得し、それぞれダウンスキルを通して忘却に陥る可能性があると定義されています。
さらに、認識論とde dictoの表現との区別の詳細な分析をサポートしています。
モデルのチェックと満足度の問題の計算の複雑さが検討され、理論的基盤と実際的な意味についての洞察を提供します。

要約(オリジナル)

This paper presents a class of epistemic logics that captures the dynamics of acquiring knowledge and descending into oblivion, while incorporating concepts of group knowledge. The approach is grounded in a system of weighted models, introducing an “epistemic skills” metric to represent the epistemic capacities tied to knowledge updates. Within this framework, knowledge acquisition is modeled as a process of upskilling, whereas oblivion is represented as a consequence of downskilling. The framework further enables exploration of “knowability” and “forgettability,” defined as the potential to gain knowledge through upskilling and to lapse into oblivion through downskilling, respectively. Additionally, it supports a detailed analysis of the distinctions between epistemic de re and de dicto expressions. The computational complexity of the model checking and satisfiability problems is examined, offering insights into their theoretical foundations and practical implications.

arxiv情報

著者 Xiaolong Liang,Yì N. Wáng
発行日 2025-04-02 13:41:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.LO | Epistemic Skills: Reasoning about Knowledge and Oblivion はコメントを受け付けていません

Style over Substance: Distilled Language Models Reason Via Stylistic Replication

要約

専門化された推論言語モデル(RLMS)は、詳細な推論トレースを介したテスト時間計算のスケーリングがパフォーマンスを大幅に向上させることを実証しています。
これらの痕跡は、より小さな命令チューニングされたモデルへの知識の蒸留を効果的に促進しますが、転送された推論の正確な性質は不明のままです。
この研究では、推論中に蒸留モデルが複製されたスタイルパターンを内在化する程度まで調査します。
この目的のために、推論のトレースを体系的に分析し、成功した推論を特徴付ける構造的および語彙パターンを特定します。
次に、蒸留モデルの推論能力に対する影響を正確に調べるために、これらの文体パターンを複製するために明示的に構築された、緊急推論の痕跡と合成データセットの2つの新しいデータセットを紹介します。
合成トレースでトレーニングされたモデルは、同等のパフォーマンスを実現し、蒸留された推論能力が表面レベルのパターンに大きく依存していることを示しています。
驚くべきことに、合成痕跡が変更されて間違った答えにつながる場合でも、パフォーマンスの増加が観察されます。
私たちの調査結果は、多様なモデルファミリ全体でLMの推論を効率的に強化するために、スタイルパターンを活用する方法を強調しています。

要約(オリジナル)

Specialized reasoning language models (RLMs) have demonstrated that scaling test-time computation through detailed reasoning traces significantly enhances performance. Although these traces effectively facilitate knowledge distillation into smaller, instruction-tuned models, the precise nature of transferred reasoning remains unclear. In this study, we investigate to what extent distilled models internalize replicated stylistic patterns during reasoning. To this end, we systematically analyze reasoning traces, identifying structural and lexical patterns that characterize successful reasoning. We then introduce two new datasets — a dataset of emergent reasoning traces and a synthetic dataset explicitly constructed to replicate these stylistic patterns — to precisely examine their influence on distilled models’ reasoning capabilities. We find that models trained on the synthetic traces achieve comparable performance, indicating that distilled reasoning abilities rely significantly on surface-level patterns. Surprisingly, we observe an increase in performance even when the synthetic traces are altered to lead to the wrong answer. Our findings highlight how stylistic patterns can be leveraged to efficiently enhance LM reasoning across diverse model families.

arxiv情報

著者 Philip Lippmann,Jie Yang
発行日 2025-04-02 13:50:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Style over Substance: Distilled Language Models Reason Via Stylistic Replication はコメントを受け付けていません