EVaDE : Event-Based Variational Thompson Sampling for Model-Based Reinforcement Learning

要約

強化学習のための事後サンプリング (PSRL) は、トンプソン サンプリングを使用してモデルベース強化学習 (MBRL) アルゴリズムを強化するよく知られたアルゴリズムです。
PSRL は環境遷移ダイナミクスと報酬関数の事後分布を維持しますが、これは高次元の状態空間と行動空間を持つタスクでは扱いにくいものです。
最近の研究では、ドロップアウトをニューラル ネットワークと組み合わせて使用​​すると、これらの事後分布を近似できる変分分布が誘導されることが示されています。
この論文では、特に基盤となるドメインがオブジェクトベースの場合に、MBRL に役立つ変分分布である Event-based variational Distributions for Exploration (EVaDE) を提案します。
私たちは、オブジェクトベース ドメインの一般的なドメイン知識を活用して、探索を指示する 3 種類のイベントベースの畳み込み層を設計します。
これらの層はガウス ドロップアウトに依存しており、変分トンプソン サンプリングを容易にするためにディープ ニューラル ネットワーク モデルの層の間に挿入されます。
100K Atari ゲーム スイートでの EVaDE を備えた Simulated Policy Learning (EVaDE-SimPLe) の有効性を実験的に示します。

要約(オリジナル)

Posterior Sampling for Reinforcement Learning (PSRL) is a well-known algorithm that augments model-based reinforcement learning (MBRL) algorithms with Thompson sampling. PSRL maintains posterior distributions of the environment transition dynamics and the reward function, which are intractable for tasks with high-dimensional state and action spaces. Recent works show that dropout, used in conjunction with neural networks, induces variational distributions that can approximate these posteriors. In this paper, we propose Event-based Variational Distributions for Exploration (EVaDE), which are variational distributions that are useful for MBRL, especially when the underlying domain is object-based. We leverage the general domain knowledge of object-based domains to design three types of event-based convolutional layers to direct exploration. These layers rely on Gaussian dropouts and are inserted between the layers of the deep neural network model to help facilitate variational Thompson sampling. We empirically show the effectiveness of EVaDE-equipped Simulated Policy Learning (EVaDE-SimPLe) on the 100K Atari game suite.

arxiv情報

著者 Siddharth Aravindan,Dixant Mittal,Wee Sun Lee
発行日 2025-01-16 15:35:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク