Reconciling Spatial and Temporal Abstractions for Goal Representation

要約

目標の表現は、複雑な学習問題をより簡単なサブタスクに分解することで、階層強化学習 (HRL) アルゴリズムのパフォーマンスに影響を与えます。
最近の研究では、時間的に抽象的な環境ダイナミクスを保存する表現が困難な問題の解決に成功し、理論的に最適性が保証されることが示されています。
ただし、これらの方法は、環境ダイナミクスが複雑になるタスク、つまり、時間的に抽象的な遷移関係がより多くの変数に依存するタスクに拡張できません。
一方で、空間抽象化を使用して以前の問題を軽減しようとする他の取り組みも行われています。
それらの制限には、高次元環境への拡張性や事前知識への依存などが含まれます。
この論文では、階層のさまざまなレベルで空間的目標と時間的目標の両方の抽象化を導入する、新しい 3 層 HRL アルゴリズムを提案します。
学習されたポリシーのリグレス限界に関する理論的研究を提供します。
複雑な連続制御タスクに対するアプローチを評価し、このアプローチによって学習された空間的および時間的抽象化の有効性を実証します。

要約(オリジナル)

Goal representation affects the performance of Hierarchical Reinforcement Learning (HRL) algorithms by decomposing the complex learning problem into easier subtasks. Recent studies show that representations that preserve temporally abstract environment dynamics are successful in solving difficult problems and provide theoretical guarantees for optimality. These methods however cannot scale to tasks where environment dynamics increase in complexity i.e. the temporally abstract transition relations depend on larger number of variables. On the other hand, other efforts have tried to use spatial abstraction to mitigate the previous issues. Their limitations include scalability to high dimensional environments and dependency on prior knowledge. In this paper, we propose a novel three-layer HRL algorithm that introduces, at different levels of the hierarchy, both a spatial and a temporal goal abstraction. We provide a theoretical study of the regret bounds of the learned policies. We evaluate the approach on complex continuous control tasks, demonstrating the effectiveness of spatial and temporal abstractions learned by this approach.

arxiv情報

著者 Mehdi Zadem,Sergio Mover,Sao Mai Nguyen
発行日 2024-01-18 10:33:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク