Reward-Centered ReST-MCTS: A Robust Decision-Making Framework for Robotic Manipulation in High Uncertainty Environments

要約

モンテカルロツリー検索(MCTS)は、ロボット工学での意思決定のための強力なツールとして浮上し、大きな検索スペースを効率的に探索できるようになりました。
ただし、従来のMCTSメソッドは、最終段階の報酬評価に依存しているため、高い不確実性とノイズの多いデータを特徴とする環境での闘争です。
検索中の中間フィードバックの欠如は、しばしば最適ではない意思決定と計算の非効率性をもたらします。
このペーパーでは、報酬中心のREST-MCTSを紹介します。これは、中間報酬形状を組み込むことでMCTを強化する新しいフレームワークです。
私たちのアプローチの中核は、ルールベースの検証、ヒューリスティックガイダンス、ニューラル推定を使用して部分的な報酬を動的に割り当てることにより、検索軌道を改良する報酬センターです。
これらのメカニズムを統合することにより、この方法により、検索パスのリアルタイム最適化が可能になり、エラー伝播の効果が軽減されます。
高い不確実性の下でロボット操作タスクにおける報酬中心のREST-MCTを評価し、意思決定の正確性の一貫した改善を示します。
チェーンオブシャーチ(COT)プロンプトおよびバニラREST-MCTを含むベースライン方法と比較して、私たちのフレームワークは、計算の実現可能性を維持しながら2〜4%の精度の向上を達成します。
アブレーション研究では、特に誤った決定パスを早期に剪定する際の検索洗練における中間フィードバックの有効性を確認します。
さらに、堅牢性テストは、私たちの方法がさまざまなレベルの不確実性にわたって高性能を保持することを示しています。

要約(オリジナル)

Monte Carlo Tree Search (MCTS) has emerged as a powerful tool for decision-making in robotics, enabling efficient exploration of large search spaces. However, traditional MCTS methods struggle in environments characterized by high uncertainty and noisy data due to their reliance on final-step reward evaluation. The lack of intermediate feedback during search often results in suboptimal decision-making and computational inefficiencies. This paper introduces Reward-Centered ReST-MCTS, a novel framework that enhances MCTS by incorporating intermediate reward shaping. The core of our approach is the Rewarding Center, which refines search trajectories by dynamically assigning partial rewards using rule-based validation, heuristic guidance, and neural estimation. By integrating these mechanisms, our method enables real-time optimization of search paths, mitigating the effects of error propagation. We evaluate Reward-Centered ReST-MCTS in robotic manipulation tasks under high uncertainty, demonstrating consistent improvements in decision accuracy. Compared to baseline methods, including Chain-of-Thought (CoT) prompting and Vanilla ReST-MCTS, our framework achieves a 2-4% accuracy improvement while maintaining computational feasibility. Ablation studies confirm the effectiveness of intermediate feedback in search refinement, particularly in pruning incorrect decision paths early. Furthermore, robustness tests show that our method retains high performance across varying levels of uncertainty.

arxiv情報

著者 Xibai Wang
発行日 2025-03-07 08:25:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク