Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

要約

現在、OpenAI o1 は、大規模推論モデル (LRM) の研究への関心の高まりを引き起こしています。
この勢いに基づいて、Marco-o1 は、数学、物理学、コーディングなど、強化学習 (RL) に適した標準的な答えを持つ分野に焦点を当てるだけでなく、オープンエンドの解決策にも重点を置きます。

私たちは、「o1 モデルは、明確な標準が存在せず、報酬の定量化が難しい、より広範な領域に効果的に一般化できるか?」という質問に対処することを目的としています。Marco-o1 は、思考連鎖 (CoT) の微調整によって強化されています。
モンテカルロ ツリー検索 (MCTS)、リフレクション メカニズム、革新的な推論戦略 — 複雑な現実世界の問題解決タスク向けに最適化されています。

要約(オリジナル)

Currently OpenAI o1 sparks a surge of interest in the study of large reasoning models (LRM). Building on this momentum, Marco-o1 not only focuses on disciplines with standard answers, such as mathematics, physics, and coding — which are well-suited for reinforcement learning (RL) — but also places greater emphasis on open-ended resolutions. We aim to address the question: ”Can the o1 model effectively generalize to broader domains where clear standards are absent and rewards are challenging to quantify?” Marco-o1 is powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), reflection mechanisms, and innovative reasoning strategies — optimized for complex real-world problem-solving tasks.

arxiv情報

著者 Yu Zhao,Huifeng Yin,Bo Zeng,Hao Wang,Tianqi Shi,Chenyang Lyu,Longyue Wang,Weihua Luo,Kaifu Zhang
発行日 2024-11-25 17:57:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク