AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models

要約

推論対応の大規模な言語モデル(LLMS)は、複雑な推論タスクで強力なパフォーマンスを示していますが、しばしば考え過ぎに苦しみ、不必要に長い考え方(COT)の推論パスを生成して、推論コストと遅延が増加します。
最近のアプローチは、長いまたは短い推論をいつ適用するかを手動で決定することにより、この課題に対処しようとします。
ただし、質問の複雑さに基づいて動的にコットの長さを適応させる柔軟性がありません。
このホワイトペーパーでは、LLMが推論質問の複雑さに基づいて生成された推論パスを動的に圧縮できるようにする動的でモデルに依存しないフレームワークであるAuto Long-Short Reasoning(Autol2s)を提案します。
Autol2sは、LLM自体がより長い推論が必要な時期と十分な場合に十分な場合に、長いCOTパスと短いCOTパスと特別なトークンの両方を含む提案された方法で注釈されたデータをトレーニングすることにより、学習したパラダイムを有効にします。
次に、トークンを使用して、モデルがいつ長いコットの推論を生成できるかをスキップできるかを示します。
この提案された注釈戦略は、トレーニング後の品質が向上した短いCOT推論パスを生成するLLMSの能力を高めることができます。
広範な評価結果は、AUTOL2Sがパフォーマンスを損なうことなく、推論生成の長さを最大57%削減し、スケーラブルで効率的なLLM推論に対するAUTOL2の有効性を示していることを示しています。

要約(オリジナル)

The reasoning-capable large language models (LLMs) demonstrate strong performance on complex reasoning tasks but often suffer from overthinking, generating unnecessarily long chain-of-thought (CoT) reasoning paths for easy reasoning questions, thereby increasing inference cost and latency. Recent approaches attempt to address this challenge by manually deciding when to apply long or short reasoning. However, they lack the flexibility to adapt CoT length dynamically based on question complexity. In this paper, we propose Auto Long-Short Reasoning (AutoL2S), a dynamic and model-agnostic framework that enables LLMs to dynamically compress their generated reasoning path based on the complexity of the reasoning question. AutoL2S enables a learned paradigm, in which LLMs themselves can decide when longer reasoning is necessary and when shorter reasoning suffices, by training on data annotated with our proposed method, which includes both long and short CoT paths and a special token. We then use token to indicate when the model can skip generating lengthy CoT reasoning. This proposed annotation strategy can enhance the LLMs’ ability to generate shorter CoT reasoning paths with improved quality after training. Extensive evaluation results show that AutoL2S reduces the length of reasoning generation by up to 57% without compromising performance, demonstrating the effectiveness of AutoL2S for scalable and efficient LLM reasoning.

arxiv情報

著者 Feng Luo,Yu-Neng Chuang,Guanchu Wang,Hoang Anh Duy Le,Shaochen Zhong,Hongyi Liu,Jiayi Yuan,Yang Sui,Vladimir Braverman,Vipin Chaudhary,Xia Hu
発行日 2025-05-28 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク