要約
強化学習 (RL) は、完全に観察可能な環境内で外部監督者によって指定された報酬を最大化することを目的とした意思決定エージェントの開発において大きな注目を集めています。
ただし、現実世界の問題の多くには、部分観察可能なマルコフ決定プロセス (POMDP) として定式化された部分観察が含まれます。
これまでの研究では、過去の行動や観察の記憶を組み込むか、観察されたデータから環境の真の状態を推測することによって、POMDP の RL に取り組んできました。
ただし、連続した空間では、時間の経過に伴う観察データを集約することは非現実的になります。
さらに、推論ベースの RL アプローチでは、報酬の最大化のみに焦点を当て、推論された状態の不確実性を無視するため、適切に実行するには多くのサンプルが必要になることがよくあります。
能動推論 (AIF) は、POMDP で定式化されたフレームワークで、期待自由エネルギー (EFE) と呼ばれる関数を最小化することでアクションを選択するようにエージェントに指示します。
これは、RL と同様に、報酬を最大化する (搾取的) 行動に、情報を求める (探索的) 行動を与えます。
AIF のこの探索的な動作にもかかわらず、EFE に関連する計算上の課題のため、その使用は離散空間に限定されます。
この論文では、AIF と RL の間の理論的な接続を確立し、これら 2 つのアプローチのシームレスな統合を可能にし、連続空間 POMDP 設定における前述の制限を克服する統一原理を提案します。
私たちは理論分析によって発見を実証し、人工エージェントの設計にAIFを利用するための新しい視点を提供します。
実験結果は、連続空間の部分的に観測可能なタスクを解決する際の私たちの方法の優れた学習能力を実証しています。
特に、私たちのアプローチは情報探索探索を活用し、報酬のない問題を効果的に解決できるようにし、外部スーパーバイザーによる明示的なタスク報酬設計をオプションで提供します。
要約(オリジナル)
Reinforcement learning (RL) has garnered significant attention for developing decision-making agents that aim to maximize rewards, specified by an external supervisor, within fully observable environments. However, many real-world problems involve partial observations, formulated as partially observable Markov decision processes (POMDPs). Previous studies have tackled RL in POMDPs by either incorporating the memory of past actions and observations or by inferring the true state of the environment from observed data. However, aggregating observed data over time becomes impractical in continuous spaces. Moreover, inference-based RL approaches often require many samples to perform well, as they focus solely on reward maximization and neglect uncertainty in the inferred state. Active inference (AIF) is a framework formulated in POMDPs and directs agents to select actions by minimizing a function called expected free energy (EFE). This supplies reward-maximizing (exploitative) behaviour, as in RL, with information-seeking (exploratory) behaviour. Despite this exploratory behaviour of AIF, its usage is limited to discrete spaces due to the computational challenges associated with EFE. In this paper, we propose a unified principle that establishes a theoretical connection between AIF and RL, enabling seamless integration of these two approaches and overcoming their aforementioned limitations in continuous space POMDP settings. We substantiate our findings with theoretical analysis, providing novel perspectives for utilizing AIF in the design of artificial agents. Experimental results demonstrate the superior learning capabilities of our method in solving continuous space partially observable tasks. Notably, our approach harnesses information-seeking exploration, enabling it to effectively solve reward-free problems and rendering explicit task reward design by an external supervisor optional.
arxiv情報
著者 | Parvin Malekzadeh,Konstantinos N. Plataniotis |
発行日 | 2024-01-12 16:02:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google