PENCIL: Long Thoughts with Short Memory

要約

最近の作品(O1、Deepseek R1など)は、言語モデルの推論能力を改善するために長い考え方(COT)を使用するという大きな約束を実証しています。
私たちは、自己回帰生成プロセスに還元メカニズムを組み込んだペンシルを提案し、モデルがトレーニングから学んだパターンに基づいて中間思考を再帰的にクリーンアップできるようにします。
この削減メカニズムにより、鉛筆は生成中に必要な最大コンテキストの長さを大幅に削減し、したがって、メモリが制限されているより長い思考を生成し、より多くの思考時間を考慮して大規模な問題を解決できます。
たとえば、ペンシルは、2048コンテキストの長さを持つ小さな25mパラメータートランスのみを使用して、挑戦的なアインシュタインのパズル(GPT-4のような大規模なモデルでさえ苦労している)で97 \%の精度を達成することを示しています。
理論的には、ペンシルが最適な時間と空間の複雑さでチューリングマシンをシミュレートすることにより、普遍的な空間効率の計算を実行できることを証明し、したがって、コンテキストウィンドウの制約を考慮して扱いにくい任意の計算タスクを解決できます。

要約(オリジナル)

While recent works (e.g. o1, DeepSeek R1) have demonstrated great promise of using long Chain-of-Thought (CoT) to improve reasoning capabilities of language models, scaling it up during test-time is challenging due to inefficient memory usage — intermediate computations accumulate indefinitely in context even no longer needed for future thoughts. We propose PENCIL, which incorporates a reduction mechanism into the autoregressive generation process, allowing the model to recursively clean up intermediate thoughts based on patterns learned from training. With this reduction mechanism, PENCIL significantly reduces the maximal context length required during generation, and thus can generate longer thoughts with limited memory, solving larger-scale problems given more thinking time. For example, we demonstrate PENCIL achieves 97\% accuracy on the challenging Einstein’s puzzle — a task even large models like GPT-4 struggle with — using only a small 25M-parameter transformer with 2048 context length. Theoretically, we prove PENCIL can perform universal space-efficient computation by simulating Turing machines with optimal time and space complexity, and thus can solve arbitrary computational tasks that would otherwise be intractable given context window constraints.

arxiv情報

著者 Chenxiao Yang,Nathan Srebro,David McAllester,Zhiyuan Li
発行日 2025-03-18 15:14:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク