要約
大規模言語モデル (LLM) は、広範な中間推論単位 (トークン、文など) の生成に依存して、広範囲の複雑なタスクにわたって最終的な回答の品質を向上させます。
複数の推論パスを生成したり、推論を繰り返し改良したりすることはパフォーマンスを向上させるのに効果的であることが証明されていますが、これらのアプローチは必然的に推論コストが大幅に高くなります。
この研究では、可能性ベースの基準である冗長性を活用して、冗長な推論文を特定して削除する、新しい文レベルの推論削減トレーニング フレームワークを提案します。
トークンレベルの削減を利用する以前のアプローチとは異なり、センテンスレベルの削減フレームワークは、生成の長さを短縮しながらモデルのパフォーマンスを維持します。
これにより、LLM の元の推論能力が維持され、さまざまなモデルやタスク全体で生成コストが平均 17.15% 削減されます。
要約(オリジナル)
Large Language Models (LLMs) rely on generating extensive intermediate reasoning units (e.g., tokens, sentences) to enhance final answer quality across a wide range of complex tasks. While generating multiple reasoning paths or iteratively refining rationales proves effective for improving performance, these approaches inevitably result in significantly higher inference costs. In this work, we propose a novel sentence-level rationale reduction training framework that leverages likelihood-based criteria, verbosity, to identify and remove redundant reasoning sentences. Unlike previous approaches that utilize token-level reduction, our sentence-level reduction framework maintains model performance while reducing generation length. This preserves the original reasoning abilities of LLMs and achieves an average 17.15% reduction in generation costs across various models and tasks.
arxiv情報
著者 | Joonwon Jang,Jaehee Kim,Wonbin Kweon,Hwanjo Yu |
発行日 | 2024-12-31 03:06:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google