Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction

要約

強化学習における困難な探索問題に直面して、私たちはエージェントにオブジェクト中心のマッピング (アイテムとその属性のセットを記述する) を与えることでより効率的な学習が可能になるかどうかを研究します。
この問題は、より高いレベルの状態抽象化でアイテムをピクセルにモデル化し、より高い時間抽象化レベルで属性の変更をプリミティブ アクションにモデル化することで、階層的に最もよく解決できることがわかりました。
この抽象化により、特定の将来の状態を予測しやすくなり、遷移のダイナミクスが単純化されます。
私たちはこれを利用して、識別世界モデルを学習し、カウントベースの固有報酬のみで効率的に探索を計画し、その後発見された (抽象) 状態に到達する計画を立てることができる、完全にモデルベースのアルゴリズムを提案します。
我々は、(i) 単一タスクを効率的に解決する、(ii) 項目タイプと環境全体でゼロショットと少数ショットを転送する、(iii) 長期にわたる計画を立てる、というモデルの能力を実証します。
一連の 2D クラフトおよび MiniHack 環境全体にわたって、私たちのモデルは、最先端の低レベルのメソッド (抽象化なし) や、同じものを使用したパフォーマンスの高いモデルフリーおよびモデルベースのメソッドよりも大幅に優れていることが経験的に示されています。
抽象化。
最後に、低レベルのオブジェクト摂動ポリシーの学習を強化する方法と、オブジェクト マッピング自体の学習を監視する方法を示します。

要約(オリジナル)

In the face of difficult exploration problems in reinforcement learning, we study whether giving an agent an object-centric mapping (describing a set of items and their attributes) allow for more efficient learning. We found this problem is best solved hierarchically by modelling items at a higher level of state abstraction to pixels, and attribute change at a higher level of temporal abstraction to primitive actions. This abstraction simplifies the transition dynamic by making specific future states easier to predict. We make use of this to propose a fully model-based algorithm that learns a discriminative world model, plans to explore efficiently with only a count-based intrinsic reward, and can subsequently plan to reach any discovered (abstract) states. We demonstrate the model’s ability to (i) efficiently solve single tasks, (ii) transfer zero-shot and few-shot across item types and environments, and (iii) plan across long horizons. Across a suite of 2D crafting and MiniHack environments, we empirically show our model significantly out-performs state-of-the-art low-level methods (without abstraction), as well as performant model-free and model-based methods using the same abstraction. Finally, we show how to reinforce learn low level object-perturbing policies, as well as supervise learn the object mapping itself.

arxiv情報

著者 Anthony GX-Chen,Kenneth Marino,Rob Fergus
発行日 2024-08-21 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク