要約
自律型インテリジェント エージェントは、感覚入力や運動コマンドの低レベル空間から、抽象的な推論や計画の高レベル領域まで、異なる抽象レベルでの計算上の課題を橋渡ししなければなりません。
このようなエージェントを設計する際の重要な問題は、理想的には高価なデータ注釈の形で監視を必要とせずに、これら 2 つのレベルの間でインターフェースとなる表現空間をインスタンス化する最良の方法をどのようにするかということです。
これらの目的は、(認識と行動に基づいた)オブジェクトの観点から世界を表現することによって効率的に達成できます。
この研究では、オブジェクト中心の表現を使用して、ピクセルから学習して環境について解釈、制御、推論する、脳にインスピレーションを得た新しい深層学習アーキテクチャを紹介します。
(高レベルの) 論理的推論と (低レベルの) 継続的制御の組み合わせを必要とする合成環境でのタスクを通じて、私たちのアプローチの有用性を示します。
結果は、エージェントが $(A \to B) \land (\neg A \to C)$ などの緊急の条件付き行動推論や、論理構成 $(A \to B) \land (A \
to C) \vdash A \to (B \land C)$ および XOR 演算を実行し、これらの論理規則から推定される目的を満たすようにその環境をうまく制御します。
エージェントは、動的な内部の望ましい目標生成のおかげで、環境の予期せぬ変化にオンラインで適応でき、世界モデルの軽度の違反に対して堅牢です。
現在の結果は合成設定 (dSprite の 2D および 3D アクティブ化バージョン) に限定されており、現実世界の複雑さのレベルには達していませんが、提案されたアーキテクチャは、教師なし学習の重要な帰納的バイアスとして、接地されたオブジェクト表現を操作する方法を示しています。
行動推論を可能にするため。
要約(オリジナル)
Autonomous intelligent agents must bridge computational challenges at disparate levels of abstraction, from the low-level spaces of sensory input and motor commands to the high-level domain of abstract reasoning and planning. A key question in designing such agents is how best to instantiate the representational space that will interface between these two levels — ideally without requiring supervision in the form of expensive data annotations. These objectives can be efficiently achieved by representing the world in terms of objects (grounded in perception and action). In this work, we present a novel, brain-inspired, deep-learning architecture that learns from pixels to interpret, control, and reason about its environment, using object-centric representations. We show the utility of our approach through tasks in synthetic environments that require a combination of (high-level) logical reasoning and (low-level) continuous control. Results show that the agent can learn emergent conditional behavioural reasoning, such as $(A \to B) \land (\neg A \to C)$, as well as logical composition $(A \to B) \land (A \to C) \vdash A \to (B \land C)$ and XOR operations, and successfully controls its environment to satisfy objectives deduced from these logical rules. The agent can adapt online to unexpected changes in its environment and is robust to mild violations of its world model, thanks to dynamic internal desired goal generation. While the present results are limited to synthetic settings (2D and 3D activated versions of dSprites), which fall short of real-world levels of complexity, the proposed architecture shows how to manipulate grounded object representations, as a key inductive bias for unsupervised learning, to enable behavioral reasoning.
arxiv情報
著者 | Ruben van Bergen,Justus Hübotter,Pablo Lanillos |
発行日 | 2024-11-26 13:54:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google