Graphical Object-Centric Actor-Critic

要約

最近、教師なしオブジェクト中心の表現学習の問題と、その下流タスクへの応用において大きな進歩が見られました。
最新の研究は、画像ベースのオブジェクト中心の強化学習タスクでもつれの解けたオブジェクト表現を採用すると、ポリシー学習が促進されるという議論を裏付けています。
これらの表現を効果的に利用するために、アクタークリティカルアプローチとモデルベースのアプローチを組み合わせた新しいオブジェクト中心の強化学習アルゴリズムを提案します。
私たちのアプローチでは、トランスフォーマー エンコーダーを使用してオブジェクト表現を抽出し、ニューラル ネットワークをグラフ化して環境のダイナミクスを近似します。
提案された方法は、離散または連続のアクション空間を持つ環境に使用できる強化学習設定のための効率的なオブジェクト中心の世界モデルを開発する際の研究のギャップを埋めます。
私たちのアルゴリズムは、視覚的に複雑な 3D ロボット環境や、構成構造を持つ 2D 環境において、トランスフォーマー アーキテクチャと最先端のモノリシック モデルに基づいて構築された最先端のモデルフリー アクター クリティカル アルゴリズムよりも優れたパフォーマンスを発揮します。
ベースのアルゴリズム。

要約(オリジナル)

There have recently been significant advances in the problem of unsupervised object-centric representation learning and its application to downstream tasks. The latest works support the argument that employing disentangled object representations in image-based object-centric reinforcement learning tasks facilitates policy learning. We propose a novel object-centric reinforcement learning algorithm combining actor-critic and model-based approaches to utilize these representations effectively. In our approach, we use a transformer encoder to extract object representations and graph neural networks to approximate the dynamics of an environment. The proposed method fills a research gap in developing efficient object-centric world models for reinforcement learning settings that can be used for environments with discrete or continuous action spaces. Our algorithm performs better in a visually complex 3D robotic environment and a 2D environment with compositional structure than the state-of-the-art model-free actor-critic algorithm built upon transformer architecture and the state-of-the-art monolithic model-based algorithm.

arxiv情報

著者 Leonid Ugadiarov,Aleksandr I. Panov
発行日 2023-10-26 06:05:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク