Combining Spatial and Temporal Abstraction in Planning for Better Generalization

要約

私たちは、人間の意識的な計画にインスピレーションを得て、時空間の抽象化を利用して新しい状況で学習したスキルを一般化するモデルベースの強化学習エージェントである Skipper を提案します。
指定されたタスクを、より小さく管理しやすいサブタスクに自動的に分解するため、環境の関連部分でのまばらな意思決定と集中的な計算が可能になります。
これは、有向グラフとして表される抽象化された代理問題の抽出に依存しており、頂点とエッジは後知恵からエンドツーエンドで学習されます。
当社の理論分析は、適切な仮定の下でパフォーマンスを保証し、当社のアプローチが役立つと期待される領域を確立します。
一般化に焦点を当てた実験では、既存の最先端の階層計画法と比較して、ゼロショット一般化における Skipper の大きな利点が検証されています。

要約(オリジナル)

Inspired by human conscious planning, we propose Skipper, a model-based reinforcement learning agent utilizing spatio-temporal abstractions to generalize learned skills in novel situations. It automatically decomposes the given task into smaller, more manageable subtasks, and hence enables sparse decision-making and focused computation on the relevant parts of the environment. This relies on the extraction of an abstracted proxy problem represented as a directed graph, in which vertices and edges are learned end-to-end from hindsight. Our theoretical analyses provide performance guarantees under appropriate assumptions and establish where our approach is expected to be helpful. Generalization-focused experiments validate Skipper’s significant advantage in zero-shot generalization, compared to existing state-of-the-art hierarchical planning methods.

arxiv情報

著者 Mingde Zhao,Safa Alver,Harm van Seijen,Romain Laroche,Doina Precup,Yoshua Bengio
発行日 2024-01-17 14:10:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク