要約
長い考え方(長いCOTS)の最近の進歩により、大規模な言語モデル(LLM)の推論能力が大幅に改善されました。
既存の作業では、長いCOTの推論の能力は、ほんの数例で調整することで効率的に引き出される可能性があり、他のタスクに簡単に転送できることがわかります。
これにより、長いCOTの推論がLLMSの一般的な能力であるかどうかを調査する動機になります。
この作業では、表現の観点からこの質問の経験的分析を実施します。
LLMSは、バニラコットとは明確な区別を持つ、一般的な能力として長いCOT推論をエンコードしていることがわかります。
さらに、長いCOT推論の効果的な移動には、ドメイン固有の表現も必要です。
これらの調査結果に触発されて、LLMSの一般的な長いCOT推論能力を解き放つための新しい表現エンジニアリング方法であるGloreを提案します。
広範な実験は、ドメイン内とクロスドメインの両方のシナリオの両方で栄光の有効性と効率性を示しています。
要約(オリジナル)
Recent advancements in long chain-of-thoughts(long CoTs) have significantly improved the reasoning capabilities of large language models(LLMs). Existing work finds that the capability of long CoT reasoning can be efficiently elicited by tuning on only a few examples and can easily transfer to other tasks. This motivates us to investigate whether long CoT reasoning is a general capability for LLMs. In this work, we conduct an empirical analysis for this question from the perspective of representation. We find that LLMs do encode long CoT reasoning as a general capability, with a clear distinction from vanilla CoTs. Furthermore, domain-specific representations are also required for the effective transfer of long CoT reasoning. Inspired by these findings, we propose GLoRE, a novel representation engineering method to unleash the general long CoT reasoning capabilities of LLMs. Extensive experiments demonstrate the effectiveness and efficiency of GLoRE in both in-domain and cross-domain scenarios.
arxiv情報
著者 | Xinyu Tang,Xiaolei Wang,Zhihao Lv,Yingqian Min,Wayne Xin Zhao,Binbin Hu,Ziqi Liu,Zhiqiang Zhang |
発行日 | 2025-03-14 11:30:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google