Robust Decision-Making Via Free Energy Minimization

要約

画期的なパフォーマンスにもかかわらず、最先端の自律エージェントは、トレーニングや環境条件が一貫性のないときに不正行為をする可能性があり、軽微な不一致が望ましくない行動や壊滅的な失敗につながります。
これらのトレーニング/環境のあいまいさに対する堅牢性は、インテリジェントエージェントの中心的な要件であり、その充足は、現実の世界にエージェントを展開する際の長年の課題です。
ここでは、トレーニングを通じて堅牢性を求める主流のビューから出発すると、このコアプロパティを設計する自由エネルギーモデルであるDR-Freeを紹介します。
自由エネルギーの最小化により、エージェントの意思決定メカニズムに堅牢性を直接配線します。
自由エネルギー原理の堅牢な拡張と新しい解像度エンジンを組み合わせることにより、DR-Freeは、あいまいさに対して最適なポリシーを返します。
さらに、初めて、最適な決定と必要なベイジアンの信念の更新における曖昧さの機械的役割を明らかにします。
私たちは、障害物で満たされた曖昧な環境をナビゲートする本物のローバーを含む実験的なテストベッドでDR-Freeを評価します。
すべての実験で、DR-Freeにより、DR-Free Failを使用しないエージェントを最小化する標準の自由エネルギーを最小限に抑える場合でも、ロボットは目標に向かってうまくナビゲートできます。
要するに、DRフリーは、以前の方法を避けるシナリオに取り組むことができます。このマイルストーンは、マルチエージェント設定での展開と、おそらくより深いレベルでの両方の展開を刺激する可能性があります。

要約(オリジナル)

Despite their groundbreaking performance, state-of-the-art autonomous agents can misbehave when training and environmental conditions become inconsistent, with minor mismatches leading to undesirable behaviors or even catastrophic failures. Robustness towards these training/environment ambiguities is a core requirement for intelligent agents and its fulfillment is a long-standing challenge when deploying agents in the real world. Here, departing from mainstream views seeking robustness through training, we introduce DR-FREE, a free energy model that installs this core property by design. It directly wires robustness into the agent decision-making mechanisms via free energy minimization. By combining a robust extension of the free energy principle with a novel resolution engine, DR-FREE returns a policy that is optimal-yet-robust against ambiguity. Moreover, for the first time, it reveals the mechanistic role of ambiguity on optimal decisions and requisite Bayesian belief updating. We evaluate DR-FREE on an experimental testbed involving real rovers navigating an ambiguous environment filled with obstacles. Across all the experiments, DR-FREE enables robots to successfully navigate towards their goal even when, in contrast, standard free energy minimizing agents that do not use DR-FREE fail. In short, DR-FREE can tackle scenarios that elude previous methods: this milestone may inspire both deployment in multi-agent settings and, at a perhaps deeper level, the quest for a biologically plausible explanation of how natural agents – with little or no training – survive in capricious environments.

arxiv情報

著者 Allahkaram Shafiei,Hozefa Jesawada,Karl Friston,Giovanni Russo
発行日 2025-03-17 14:36:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY, math.OC パーマリンク