Boosting MCTS with Free Energy Minimization

要約

自由エネルギー原理に基づいたアクティブ推論は、不確実な環境においてエージェントが探索と目標指向の行動のバランスをとる方法を理解するための強力なレンズを提供します。
ここでは、モンテカルロ木探索 (MCTS) をアクティブな推論目標と統合して、外部報酬を追求しながら認識論的不確実性を体系的に削減する新しい計画フレームワークを提案します。
私たちの重要な洞察は、検索効率ですでに有名な MCTS を自然に拡張して、期待される報酬と情報獲得を組み合わせることで自由エネルギーの最小化を組み込むことができるということです。
具体的には、クロス エントロピー メソッド (CEM) を使用してルート ノードでのアクション提案を最適化し、ツリーの拡張では固有の探索ボーナスとともに報酬モデリングを活用します。
この相乗効果により、プランナーは計算の扱いやすさを犠牲にすることなく、計画全体を通じて価値と不確実性の一貫した推定を維持することができます。
経験的に、さまざまな連続制御タスクでプランナーのベンチマークを実行し、スタンドアロン CEM とランダム ロールアウトによる MCTS の両方を上回るパフォーマンスの向上を実証しました。

要約(オリジナル)

Active Inference, grounded in the Free Energy Principle, provides a powerful lens for understanding how agents balance exploration and goal-directed behavior in uncertain environments. Here, we propose a new planning framework, that integrates Monte Carlo Tree Search (MCTS) with active inference objectives to systematically reduce epistemic uncertainty while pursuing extrinsic rewards. Our key insight is that MCTS already renowned for its search efficiency can be naturally extended to incorporate free energy minimization by blending expected rewards with information gain. Concretely, the Cross-Entropy Method (CEM) is used to optimize action proposals at the root node, while tree expansions leverage reward modeling alongside intrinsic exploration bonuses. This synergy allows our planner to maintain coherent estimates of value and uncertainty throughout planning, without sacrificing computational tractability. Empirically, we benchmark our planner on a diverse set of continuous control tasks, where it demonstrates performance gains over both standalone CEM and MCTS with random rollouts.

arxiv情報

著者 Mawaba Pascal Dao,Adrian Peter
発行日 2025-01-22 18:45:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク