Using Forwards-Backwards Models to Approximate MDP Homomorphisms

要約

強化学習エージェントは、試行錯誤を繰り返しながら、どのような状態-行動の組が価値的に等価であるかを学習しなければならない。環境のMDPを抽象的なMDPに縮小し、より良いサンプル効率を可能にするMDP同型性が提案されている。その結果、適切なホモモルフィズムを先験的に構築することで、印象的な改善が達成されてきた。我々は、離散行動空間における同型性を構築するための新しいアプローチを提案する。これは、学習された環境ダイナミクスのモデルを用いて、どの状態-行動ペアが同じ状態を導くかを推測するものである。MinAtarでは、すべてのゲームとオプティマイザを平均した場合、低サンプル限界において、値に基づくオフポリシーベースラインに対してほぼ4倍の改善を報告している。

要約(オリジナル)

Reinforcement learning agents must painstakingly learn through trial and error what sets of state-action pairs are value equivalent — requiring an often prohibitively large amount of environment experience. MDP homomorphisms have been proposed that reduce the MDP of an environment to an abstract MDP, enabling better sample efficiency. Consequently, impressive improvements have been achieved when a suitable homomorphism can be constructed a priori — usually by exploiting a practitioner’s knowledge of environment symmetries. We propose a novel approach to constructing homomorphisms in discrete action spaces, which uses a learnt model of environment dynamics to infer which state-action pairs lead to the same state — which can reduce the size of the state-action space by a factor as large as the cardinality of the original action space. In MinAtar, we report an almost 4x improvement over a value-based off-policy baseline in the low sample limit, when averaging over all games and optimizers.

arxiv情報

著者 Augustine N. Mavor-Parker,Matthew J. Sargent,Christian Pehle,Andrea Banino,Lewis D. Griffin,Caswell Barry
発行日 2024-03-02 17:02:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク