AXIOM: Learning to Play Games in Minutes with Expanding Object-Centric Models

要約

現在の深い強化学習(DRL)アプローチは、さまざまなドメインで最先端のパフォーマンスを達成しますが、オブジェクトとその相互作用に関するコアプライアーを活用する人間の学習と比較してデータ効率と闘っています。
アクティブな推論は、世界モデルを学び、独自の信念と予測の不確実性を定量化するために、感覚情報を事前知識と統合するための原則的なフレームワークを提供します。
ただし、アクティブな推論モデルは通常、オーダーメイドの知識を持つ単一のタスクで作成されるため、DRLアプローチに典型的なドメインの柔軟性がありません。
このギャップを埋めるために、オブジェクト中心のダイナミクスと相互作用に関する最小限の表現力豊かなコアプライアーのセットを統合して、低データレジームの学習を加速する新しいアーキテクチャを提案します。
Axiomと呼ばれる結果のアプローチは、ベイジアンアプローチの通常のデータ効率と解釈可能性を、通常DRLに関連付けられているタスクの一般化を兼ね備えています。
公理は、オブジェクトの構成としてシーンを表します。オブジェクトの構成は、ダイナミクスがまばらなオブジェクトとオブジェクトの相互作用をキャプチャする区分的線形軌跡としてモデル化されています。
生成モデルの構造は、単一のイベントから混合モデルを栽培および学習することにより、オンラインで拡張され、ベイジアンモデルの削減を通じて定期的に洗練されて一般化を誘導します。
Axiomは、DRLと比較して少数のパラメーターを使用して、勾配ベースの最適化の計算費用なしで、わずか10,000のインタラクションステップでさまざまなゲームをマスターします。

要約(オリジナル)

Current deep reinforcement learning (DRL) approaches achieve state-of-the-art performance in various domains, but struggle with data efficiency compared to human learning, which leverages core priors about objects and their interactions. Active inference offers a principled framework for integrating sensory information with prior knowledge to learn a world model and quantify the uncertainty of its own beliefs and predictions. However, active inference models are usually crafted for a single task with bespoke knowledge, so they lack the domain flexibility typical of DRL approaches. To bridge this gap, we propose a novel architecture that integrates a minimal yet expressive set of core priors about object-centric dynamics and interactions to accelerate learning in low-data regimes. The resulting approach, which we call AXIOM, combines the usual data efficiency and interpretability of Bayesian approaches with the across-task generalization usually associated with DRL. AXIOM represents scenes as compositions of objects, whose dynamics are modeled as piecewise linear trajectories that capture sparse object-object interactions. The structure of the generative model is expanded online by growing and learning mixture models from single events and periodically refined through Bayesian model reduction to induce generalization. AXIOM masters various games within only 10,000 interaction steps, with both a small number of parameters compared to DRL, and without the computational expense of gradient-based optimization.

arxiv情報

著者 Conor Heins,Toon Van de Maele,Alexander Tschantz,Hampus Linander,Dimitrije Markovic,Tommaso Salvatori,Corrado Pezzato,Ozan Catal,Ran Wei,Magnus Koudahl,Marco Perin,Karl Friston,Tim Verbelen,Christopher Buckley
発行日 2025-05-30 16:46:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク