Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster

要約

この研究では、補助モデルのさらなるトレーニングや LLM 自体の変更を必要としない、並列デコードに基づくモデルに依存しないフレームワークである FastCoT を提案します。
FastCoT は、位置に応じてサイズが変化するサイズ可変コンテキスト ウィンドウを使用して、並列デコードと自己回帰デコードを同時に実行し、GPU の計算リソースを最大限に活用します。
FastCoT では、並列デコード部分により、近似トークンで構成される将来の概要が LLM に提供され、これにより、因果変換によって使用される通常の自己回帰デコードと比較して、より高速な答えが得られる可能性があります。
また、LLM 内での並列デコードの実装も提供しており、KV キャッシュの生成とバッチ処理をサポートしています。
広範な実験を通じて、FastCoT は通常のアプローチと比較してごくわずかなパフォーマンスの低下のみで推論時間を 20% 近く節約できることを実証しました。
さらに、コンテキスト ウィンドウのサイズがさまざまなタスクに対してかなりの堅牢性を示すことを示します。

要約(オリジナル)

In this work, we propose FastCoT, a model-agnostic framework based on parallel decoding without any further training of an auxiliary model or modification to the LLM itself. FastCoT uses a size-varying context window whose size changes with position to conduct parallel decoding and auto-regressive decoding simultaneously, thus fully utilizing GPU computation resources. In FastCoT, the parallel decoding part provides the LLM with a quick glance of the future composed of approximate tokens, which could lead to faster answers compared to regular autoregressive decoding used by causal transformers. We also provide an implementation of parallel decoding within LLM, which supports KV-cache generation and batch processing. Through extensive experiments, we demonstrate that FastCoT saves inference time by nearly 20% with only a negligible performance drop compared to the regular approach. Additionally, we show that the context window size exhibits considerable robustness for different tasks.

arxiv情報

著者 Hongxuan Zhang,Zhining Liu,Jiaqi Zheng,Chenyi Zhuang,Jinjie Gu,Guihai Chen
発行日 2023-11-14 15:56:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク