要約
現在、OpenAI o1 は、大規模推論モデル (LRM) の研究への関心の高まりを引き起こしています。
この勢いに基づいて、Marco-o1 は、数学、物理学、コーディングなど、強化学習 (RL) に適した標準的な答えを持つ分野に焦点を当てるだけでなく、オープンエンドの解決策にも重点を置きます。
。
私たちは、「o1 モデルは、明確な基準が存在せず、報酬の定量化が難しいより広範な領域に効果的に一般化できるか?」という質問に対処することを目的としています。
Marco-o1 は、思考連鎖 (CoT) 微調整、モンテカルロ木探索 (MCTS)、リフレクション メカニズム、革新的な推論戦略を備えており、現実世界の複雑な問題解決タスク向けに最適化されています。
要約(オリジナル)
Currently OpenAI o1 has sparked a surge of interest in the study of large reasoning models (LRM). Building on this momentum, Marco-o1 not only focuses on disciplines with standard answers, such as mathematics, physics, and coding — which are well-suited for reinforcement learning (RL) — but also places greater emphasis on open-ended resolutions. We aim to address the question: ‘Can the o1 model effectively generalize to broader domains where clear standards are absent and rewards are challenging to quantify?’ Marco-o1 is powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), reflection mechanisms, and innovative reasoning strategies — optimized for complex real-world problem-solving tasks.
arxiv情報
著者 | Yu Zhao,Huifeng Yin,Bo Zeng,Hao Wang,Tianqi Shi,Chenyang Lyu,Longyue Wang,Weihua Luo,Kaifu Zhang |
発行日 | 2024-11-21 18:37:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google