要約
言語は人間の推論に不可欠なツールとして長い間考えられてきました。
大規模言語モデル (LLM) の画期的な進歩により、これらのモデルを活用して複雑な推論タスクに取り組むことに大きな研究関心が集まりました。
研究者たちは、推論プロセスの中間ステップを表す一連のトークンである「思考」の概念を導入することで、単純な自己回帰トークン生成を超えました。
この革新的なパラダイムにより、LLM はツリー探索や内省的思考などの複雑な人間の推論プロセスを模倣することができます。
最近、推論を学習する新たなトレンドとして、強化学習 (RL) を適用して LLM を訓練し、推論プロセスを習得するようになりました。
このアプローチにより、試行錯誤の検索アルゴリズムを通じて高品質の推論軌跡の自動生成が可能になり、より多くのトレーニング データを提供することで LLM の推論能力が大幅に拡張されます。
さらに、最近の研究では、LLM がテスト時の推論中により多くのトークンを使って「考える」ことを奨励すると、推論の精度がさらに大幅に向上する可能性があることが実証されています。
したがって、トレーニング時間とテスト時間のスケーリングを組み合わせることで、新しい研究のフロンティア、つまり大規模推論モデルへの道が示されました。
OpenAI の o1 シリーズの導入は、この研究の方向性において重要なマイルストーンとなります。
この調査では、LLM 推論の最近の進歩を包括的にレビューします。
まず LLM の基礎的な背景を紹介し、次に自動化されたデータ構築、学習から推論の手法、テスト時間のスケーリングに焦点を当てて、大規模推論モデルの開発を推進する主要な技術コンポーネントを探ります。
また、大規模な推論モデルの構築において人気のあるオープンソース プロジェクトを分析し、未解決の課題と将来の研究の方向性について結論付けます。
要約(オリジナル)
Language has long been conceived as an essential tool for human reasoning. The breakthrough of Large Language Models (LLMs) has sparked significant research interest in leveraging these models to tackle complex reasoning tasks. Researchers have moved beyond simple autoregressive token generation by introducing the concept of ‘thought’ — a sequence of tokens representing intermediate steps in the reasoning process. This innovative paradigm enables LLMs’ to mimic complex human reasoning processes, such as tree search and reflective thinking. Recently, an emerging trend of learning to reason has applied reinforcement learning (RL) to train LLMs to master reasoning processes. This approach enables the automatic generation of high-quality reasoning trajectories through trial-and-error search algorithms, significantly expanding LLMs’ reasoning capacity by providing substantially more training data. Furthermore, recent studies demonstrate that encouraging LLMs to ‘think’ with more tokens during test-time inference can further significantly boost reasoning accuracy. Therefore, the train-time and test-time scaling combined to show a new research frontier — a path toward Large Reasoning Model. The introduction of OpenAI’s o1 series marks a significant milestone in this research direction. In this survey, we present a comprehensive review of recent progress in LLM reasoning. We begin by introducing the foundational background of LLMs and then explore the key technical components driving the development of large reasoning models, with a focus on automated data construction, learning-to-reason techniques, and test-time scaling. We also analyze popular open-source projects at building large reasoning models, and conclude with open challenges and future research directions.
arxiv情報
著者 | Fengli Xu,Qianyue Hao,Zefang Zong,Jingwei Wang,Yunke Zhang,Jingyi Wang,Xiaochong Lan,Jiahui Gong,Tianjian Ouyang,Fanjin Meng,Chenyang Shao,Yuwei Yan,Qinglong Yang,Yiwen Song,Sijian Ren,Xinyuan Hu,Yu Li,Jie Feng,Chen Gao,Yong Li |
発行日 | 2025-01-17 15:24:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google