要約
報酬マシンは、命令、安全制約、その他の時間的に拡張された報酬に値する動作を指定するための、オートマトンにヒントを得た構造を提供します。
報酬関数の基礎となる構造を公開することで、RL タスクの分解が可能になり、サンプル効率の大幅な向上につながります。
報酬マシンと同様の正式な仕様には、逐次的な意思決定の問題に対する豊富な適用の歴史がありますが、報酬関数の構成要素を形成するドメイン固有の語彙のグラウンドトゥルースの解釈、つまりグラウンドトゥルースに大きく依存しています。
部分的な可観測性とノイズの多いセンシングのせいで、現実世界では解釈が困難です。
この研究では、騒がしく不確実な環境におけるディープ RL のための報酬マシンの使用を検討します。
我々は、この問題を POMDP として特徴付け、ドメイン固有の語彙の不確実な解釈の下でタスク構造を利用する一連の RL アルゴリズムを提案します。
理論と実験を通じて、この問題に対する素朴なアプローチの落とし穴を明らかにすると同時に、語彙のノイズの多い解釈の下でタスク構造をどのようにうまく活用できるかを実証します。
要約(オリジナル)
Reward Machines provide an automaton-inspired structure for specifying instructions, safety constraints, and other temporally extended reward-worthy behaviour. By exposing the underlying structure of a reward function, they enable the decomposition of an RL task, leading to impressive gains in sample efficiency. Although Reward Machines and similar formal specifications have a rich history of application towards sequential decision-making problems, they critically rely on a ground-truth interpretation of the domain-specific vocabulary that forms the building blocks of the reward function–such ground-truth interpretations are elusive in the real world due in part to partial observability and noisy sensing. In this work, we explore the use of Reward Machines for Deep RL in noisy and uncertain environments. We characterize this problem as a POMDP and propose a suite of RL algorithms that exploit task structure under uncertain interpretation of the domain-specific vocabulary. Through theory and experiments, we expose pitfalls in naive approaches to this problem while simultaneously demonstrating how task structure can be successfully leveraged under noisy interpretations of the vocabulary.
arxiv情報
著者 | Andrew C. Li,Zizhao Chen,Toryn Q. Klassen,Pashootan Vaezipoor,Rodrigo Toro Icarte,Sheila A. McIlraith |
発行日 | 2025-01-15 18:30:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google