要約
考え方、自己整合性、MCTなどのテスト時間推論アルゴリズムはLLMの問題解決を強化しますが、精度を改善することなく多くのトークンを無駄に生成する可能性があります。
同時に、これらのアルゴリズムは回答の安定化を示すことを観察します。中間ソリューションは、特定のポイントの後に変化を止め、コンピューティングのさらなる投資は最終的な答えを変えません。
この現象を定量化するために、この進化する安定性を測定するアルゴリズムと抗議のメトリックである特定のDexを導入し、最終結果を変更する可能性が低い場合にシグナルを導入します。
特定のDEXは軽量で、早期出口を介して推論プログラムの推論を加速でき、さらに動的トークンの割り当て、ギャングのスケジューリング、および実際のLLMサービングシステムと統合された多くの機会を可能にします。
現実世界の利点を定量化するために、Dynasorにスケジューラとして特定のDexを構築し、推論に対応するLLMサービングシステムを構築し、正確な低下で実際のワークロードで最大50%のコンピューティングと3.3倍のスループットを実証しました。
私たちのコードは、https://github.com/hao-ai-lab/dynasor.gitで入手できます
要約(オリジナル)
Test-time reasoning algorithms such as chain-of-thought, self-consistency, and MCTS enhance LLM problem-solving but can wastefully generate many tokens without improving accuracy. At the same time, we observe that these algorithms exhibit answer stabilization: their intermediate solutions often cease to change after a certain point, and further investment of compute does not change their final answer. To quantify this phenomenon, we introduce Certaindex, an algorithm-agnostic metric measuring this evolving stability, signaling when further computation is unlikely to alter the final result. Certaindex is lightweight, can accelerate reasoning program inference via early exit, and further enables dynamic token allocation, gang scheduling, and many opportunities when integrated with real-world LLM serving systems. To quantify real-world benefits, we built Certaindex as a scheduler into Dynasor, our reasoning-aware LLM serving system, and demonstrate up to 50% compute savings and 3.3x higher throughput in real workloads with no accuracy drop. Our code is available at https://github.com/hao-ai-lab/Dynasor.git
arxiv情報
著者 | Yichao Fu,Junda Chen,Siqi Zhu,Zheyu Fu,Zhongdongming Dai,Yonghao Zhuang,Yian Ma,Aurick Qiao,Tajana Rosing,Ion Stoica,Hao Zhang |
発行日 | 2025-05-27 16:41:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google