SOLAR: Scalable Optimization of Large-scale Architecture for Reasoning

要約

大規模な言語モデル(LLM)は推論に優れていますが、より微妙なトポロジカル推論を必要とする複雑なタスクに苦労している、考え方(COT)アプローチに制約されたままです。
ソーラー、推論のための大規模アーキテクチャのスケーラブルな最適化を導入します。これは、精度と効率を高めるためにさまざまな推論トポロジを動的に最適化するフレームワークです。
トポロジーアノテーション生成(TAG)システムは、トポロジーデータセットの作成とセグメンテーションを自動化し、トレーニング後と評価を改善します。
さらに、トレーニングと推論のスケーリングを調整する報酬主導のフレームワークであるトポロジースケーリングを提案し、LLMに適応的なタスクを意識した推論を装備しています。
ソーラーは、数学とGSM8Kの大幅な利益を達成します。トポロジーチューニングで +5%の精度、トポロジー報酬で +9%、ハイブリッドスケーリングで +10.02%。
また、複雑な問題に対して応答長を5%以上削減し、推論潜時を下げます。
報酬システムを促進するために、マルチタスクのトポロジ報酬モデル(M-TRM)をトレーニングします。これは、単一のパスで最良の推論トポロジと回答を自律的に選択し、複数のシングルタスクTRM(S-TRM)のトレーニングと推論の必要性を排除し、トレーニングコストと推論の両方の潜在性を削減します。
さらに、パフォーマンスの観点から、M-TRMはすべてのS-TRMを上回り、精度を +10%、ランク相関を +9%上回ります。
私たちの知る限り、Solarは、自動化された注釈プロセスと動的推論トポロジー競争メカニズムを導入しながら、スケーラブルで高精度のLLM推論のための新しいベンチマークを設定します。

要約(オリジナル)

Large Language Models (LLMs) excel in reasoning but remain constrained by their Chain-of-Thought (CoT) approach, which struggles with complex tasks requiring more nuanced topological reasoning. We introduce SOLAR, Scalable Optimization of Large-scale Architecture for Reasoning, a framework that dynamically optimizes various reasoning topologies to enhance accuracy and efficiency. Our Topological Annotation Generation (TAG) system automates topological dataset creation and segmentation, improving post-training and evaluation. Additionally, we propose Topological-Scaling, a reward-driven framework that aligns training and inference scaling, equipping LLMs with adaptive, task-aware reasoning. SOLAR achieves substantial gains on MATH and GSM8K: +5% accuracy with Topological Tuning, +9% with Topological Reward, and +10.02% with Hybrid Scaling. It also reduces response length by over 5% for complex problems, lowering inference latency. To foster the reward system, we train a multi-task Topological Reward Model (M-TRM), which autonomously selects the best reasoning topology and answer in a single pass, eliminating the need for training and inference on multiple single-task TRMs (S-TRMs), thus reducing both training cost and inference latency. In addition, in terms of performance, M-TRM surpasses all S-TRMs, improving accuracy by +10% and rank correlation by +9%. To the best of our knowledge, SOLAR sets a new benchmark for scalable, high-precision LLM reasoning while introducing an automated annotation process and a dynamic reasoning topology competition mechanism.

arxiv情報

著者 Chen Li,Yinyi Luo,Anudeep Bolimera,Marios Savvides
発行日 2025-03-06 15:19:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク