Relational Object-Centric Actor-Critic

要約

監視されていないオブジェクト中心の表現学習の進歩により、ダウンストリームタスクへの応用が大幅に改善されました。
最近の作品は、オブジェクト表現を解き放つことで、画像ベースのオブジェクト中心の強化学習タスクで政策学習を支援できることを強調しています。
このペーパーでは、批評家にオブジェクト中心の世界モデルを組み込むことにより、アクタークライティックとモデルベースのアプローチを統合する新しいオブジェクト中心の強化学習アルゴリズムを提案します。
世界モデルは、アクションが環境への介入である現在の状態アクションペアを考慮して、次の状態と報酬を予測することにより、環境のデータ生成プロセスをキャプチャします。
モデルベースの強化学習では、世界モデルの学習は、環境のダイナミクスの根底にある因果関係を学習する必要がある因果誘導問題として解釈できます。
シミュレートされた3Dロボット環境と、組成構造の2D環境での方法を評価します。
ベースラインとして、オブジェクト中心のモデルのないアクタークライティックアルゴリズムと最先端のモノリシックモデルベースのアルゴリズムと比較します。
ベースラインでは、より簡単なタスクで同等のパフォーマンスを示していますが、私たちのアプローチは、多数のオブジェクトまたはより複雑なダイナミクスを備えたより挑戦的なシナリオでそれらを上回ります。

要約(オリジナル)

The advances in unsupervised object-centric representation learning have significantly improved its application to downstream tasks. Recent works highlight that disentangled object representations can aid policy learning in image-based, object-centric reinforcement learning tasks. This paper proposes a novel object-centric reinforcement learning algorithm that integrates actor-critic and model-based approaches by incorporating an object-centric world model within the critic. The world model captures the environment’s data-generating process by predicting the next state and reward given the current state-action pair, where actions are interventions in the environment. In model-based reinforcement learning, world model learning can be interpreted as a causal induction problem, where the agent must learn the causal relationships underlying the environment’s dynamics. We evaluate our method in a simulated 3D robotic environment and a 2D environment with compositional structure. As baselines, we compare against object-centric, model-free actor-critic algorithms and a state-of-the-art monolithic model-based algorithm. While the baselines show comparable performance in easier tasks, our approach outperforms them in more challenging scenarios with a large number of objects or more complex dynamics.

arxiv情報

著者 Leonid Ugadiarov,Vitaliy Vorobyov,Aleksandr I. Panov
発行日 2025-03-20 12:30:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク