Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov

要約

多くの強化学習アルゴリズムは、最適性を保証するためにマルコフ報酬関数を前提としています。
ただし、すべての報酬関数がマルコフ関数であるわけではありません。
この論文は、特殊な報酬オートマトンである報酬マシンを学習することによって、非マルコフ報酬関数を同等のマルコフ報酬関数にマッピングするためのフレームワークを提案します。
報酬マシンを学習する一般的な手法とは異なり、学習の元となる高レベルの命題記号のセットは必要ありません。
むしろ、隠れたトリガーを構築するデータから直接学習します。
報酬の依存関係をモデル化する能力を考慮すると、報酬マシンを学習することの重要性を、決定論的有限状態オートマトンの対応物よりも重要であることを示します。
私たちは学習目標の中でこの区別を形式化します。
私たちのマッピング プロセスは、整数線形計画問題として構築されています。
私たちのマッピングは、報酬の期待を最大化するための適切な代用手段を形成していることを証明します。
Officeworld ドメインのブラックボックスの非マルコフ報酬関数を学習することで、アプローチを経験的に検証します。
さらに、新しいドメインである Breakfastworld で報酬の依存関係を学習することの有効性を実証します。

要約(オリジナル)

Many Reinforcement Learning algorithms assume a Markov reward function to guarantee optimality. However, not all reward functions are Markov. This paper proposes a framework for mapping non-Markov reward functions into equivalent Markov ones by learning specialized reward automata, Reward Machines. Unlike the general practice of learning Reward Machines, we do not require a set of high-level propositional symbols from which to learn. Rather, we learn hidden triggers, directly from data, that construct them. We demonstrate the importance of learning Reward Machines over their Deterministic Finite-State Automata counterparts given their ability to model reward dependencies. We formalize this distinction in our learning objective. Our mapping process is constructed as an Integer Linear Programming problem. We prove that our mappings form a suitable proxy for maximizing reward expectations. We empirically validate our approach by learning black-box, non-Markov reward functions in the Officeworld domain. Additionally, we demonstrate the effectiveness of learning reward dependencies in a new domain, Breakfastworld.

arxiv情報

著者 Gregory Hyde,Eugene Santos Jr
発行日 2024-08-16 16:18:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク