要約
最近の大規模な推論モデル(LRM)は、最終的な応答を作成する前に拡張思考プロセスを組み込むことにより、従来の大規模な言語モデル(LLMS)に対して実質的に改善された推論機能を示しています。
ただし、過度に長い思考は、トークンの消費とレイテンシの点でかなりの間接的なオーバーヘッドを導入します。これは、単純なクエリには特に不要です。
この作業では、ユーザークエリのコンテキスト情報に基づいて思考を実行できるかどうかを適応的に決定できる最初の種類のモデルである大規模なハイブリッドリレイニングモデル(LHRMS)を導入します。
これを達成するために、ハイブリッド微調整(HFT)をコールドスタートとして含む2段階のトレーニングパイプラインを提案し、その後、提案されたハイブリッドグループポリシー最適化(HGPO)を使用して、適切な思考モードを暗黙的に学習するためのオンライン強化学習を提案します。
さらに、ハイブリッド精度と呼ばれるメトリックを導入して、ハイブリッド思考のモデルの機能を定量的に評価します。
広範な実験結果は、LHRMがさまざまな難易度とタイプのクエリについてハイブリッド思考を適応的に実行できることを示しています。
推論と一般的な能力において、既存のLRMとLLMを上回り、効率を大幅に改善します。
一緒に、私たちの仕事は、拡張思考プロセスの適切な使用の再考を提唱し、ハイブリッド思考システムを構築するための確固たる出発点を提供します。
要約(オリジナル)
Recent Large Reasoning Models (LRMs) have shown substantially improved reasoning capabilities over traditional Large Language Models (LLMs) by incorporating extended thinking processes prior to producing final responses. However, excessively lengthy thinking introduces substantial overhead in terms of token consumption and latency, which is particularly unnecessary for simple queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the first kind of model capable of adaptively determining whether to perform thinking based on the contextual information of user queries. To achieve this, we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as a cold start, followed by online reinforcement learning with the proposed Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the appropriate thinking mode. Furthermore, we introduce a metric called Hybrid Accuracy to quantitatively assess the model’s capability for hybrid thinking. Extensive experimental results show that LHRMs can adaptively perform hybrid thinking on queries of varying difficulty and type. It outperforms existing LRMs and LLMs in reasoning and general capabilities while significantly improving efficiency. Together, our work advocates for a reconsideration of the appropriate use of extended thinking processes and provides a solid starting point for building hybrid thinking systems.
arxiv情報
著者 | Lingjie Jiang,Xun Wu,Shaohan Huang,Qingxiu Dong,Zewen Chi,Li Dong,Xingxing Zhang,Tengchao Lv,Lei Cui,Furu Wei |
発行日 | 2025-05-21 05:17:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google