要約
複雑な推論におけるo1モデルの顕著な性能は、テスト時間の計算スケーリングがこのモデルの潜在能力をさらに引き出し、強力なSystem-2思考を可能にすることを示している。しかし、テストタイム・コンピューティング・スケーリングに関する包括的な調査はまだ不足している。テスト時間計算の概念をSystem-1モデルまで遡る。System-1モデルでは、テストタイム・コンピュートは、分布のシフトに対処し、パラメータ更新、入力修正、表現編集、出力校正を通じて、ロバスト性と汎化性を向上させます。System-2モデルでは、繰り返しサンプリング、自己修正、ツリー探索を通じて、複雑な問題を解決するモデルの推論能力を向上させる。我々は、System-1モデルから弱いSystem-2モデル、そして強いSystem-2モデルへの移行におけるテスト時間計算の重要な役割に焦点を当てながら、System-1からSystem-2への思考のトレンドに従ってこのサーベイを整理する。また、今後の方向性についても言及する。
要約(オリジナル)
The remarkable performance of the o1 model in complex reasoning demonstrates that test-time compute scaling can further unlock the model’s potential, enabling powerful System-2 thinking. However, there is still a lack of comprehensive surveys for test-time compute scaling. We trace the concept of test-time compute back to System-1 models. In System-1 models, test-time compute addresses distribution shifts and improves robustness and generalization through parameter updating, input modification, representation editing, and output calibration. In System-2 models, it enhances the model’s reasoning ability to solve complex problems through repeated sampling, self-correction, and tree search. We organize this survey according to the trend of System-1 to System-2 thinking, highlighting the key role of test-time compute in the transition from System-1 models to weak System-2 models, and then to strong System-2 models. We also point out a few possible future directions.
arxiv情報
著者 | Yixin Ji,Juntao Li,Hai Ye,Kaixin Wu,Kai Yao,Jia Xu,Linjian Mo,Min Zhang |
発行日 | 2025-03-03 07:16:16+00:00 |
arxivサイト | arxiv_id(pdf) |