Free Energy Projective Simulation (FEPS): Active inference with interpretability

要約

過去 10 年間、自由エネルギー原理 (FEP) と能動推論 (AIF) は、学習と認知の概念モデルを知覚と行動の数学的モデルに結び付けることで多くの成功を収めてきました。
この取り組みは、主体性の要素を含む、自己組織化する複雑な適応システムの側面を理解するという学際的な関心によって推進されています。
能動推論を実行するさまざまな強化学習 (RL) モデルが提案され、ディープ ニューラル ネットワークを使用して標準的な RL タスクでトレーニングされています。
最近の研究は、最新の機械学習技術を組み込むことによって、複雑な環境におけるこのようなエージェントのパフォーマンスを向上させることに焦点を当てています。
このホワイトペーパーでは、別のアプローチを採用します。
FEP と AIF によって課される制約の範囲内で、自由エネルギー射影シミュレーション (FEPS) を導入することにより、ディープ ニューラル ネットワークを使用せずに解釈可能な方法でエージェントをモデル化することを試みます。
FEPS エージェントは、内部報酬のみを使用して、対話する部分的に観察可能な環境の表現を構築します。
AIF に従って、所定のタスクを達成するためのポリシーは、予想される自由エネルギーを最小限に抑えることによってこの世界モデルから導出されます。
モデルの解釈可能性を活用して、長期的な目標に対処し、隠れ状態の誤った推定によって引き起こされる予測誤差を減らすための手法が導入されています。
私たちは、行動生物学からインスピレーションを得た 2 つの RL 環境、つまり時間指定された応答タスクと部分的に観察可能なグリッドでのナビゲーション タスクで FEPS モデルをテストします。
私たちの結果は、FEPS エージェントが予測精度のみに基づいて観察を適切に文脈化することで、両方の環境の曖昧さを完全に解決することを示しています。
さらに、環境内のあらゆる対象観測に対して、最適なポリシーを柔軟に推測します。

要約(オリジナル)

In the last decade, the free energy principle (FEP) and active inference (AIF) have achieved many successes connecting conceptual models of learning and cognition to mathematical models of perception and action. This effort is driven by a multidisciplinary interest in understanding aspects of self-organizing complex adaptive systems, including elements of agency. Various reinforcement learning (RL) models performing active inference have been proposed and trained on standard RL tasks using deep neural networks. Recent work has focused on improving such agents’ performance in complex environments by incorporating the latest machine learning techniques. In this paper, we take an alternative approach. Within the constraints imposed by the FEP and AIF, we attempt to model agents in an interpretable way without deep neural networks by introducing Free Energy Projective Simulation (FEPS). Using internal rewards only, FEPS agents build a representation of their partially observable environments with which they interact. Following AIF, the policy to achieve a given task is derived from this world model by minimizing the expected free energy. Leveraging the interpretability of the model, techniques are introduced to deal with long-term goals and reduce prediction errors caused by erroneous hidden state estimation. We test the FEPS model on two RL environments inspired from behavioral biology: a timed response task and a navigation task in a partially observable grid. Our results show that FEPS agents fully resolve the ambiguity of both environments by appropriately contextualizing their observations based on prediction accuracy only. In addition, they infer optimal policies flexibly for any target observation in the environment.

arxiv情報

著者 Joséphine Pazem,Marius Krumm,Alexander Q. Vining,Lukas J. Fiderer,Hans J. Briegel
発行日 2024-11-22 15:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.NC, stat.ML パーマリンク