Embodied Active Learning of Relational State Abstractions for Bilevel Planning

要約

状態の抽象化は、継続的な状態とアクション、長いタスク期間、まばらなフィードバックを伴うロボティクス環境で計画を立てるための効果的な手法です。
オブジェクト指向環境では、述語は、シンボリック プランナーとの互換性とリレーショナル一般化のための能力があるため、状態抽象化の特に有用な形式です。
ただし、述語を使用して計画を立てるには、エージェントは述語を連続的な環境状態で解釈できる必要があります (つまり、シンボルを接地します)。
述語の解釈を手動でプログラミングするのは難しい場合があるため、代わりにデータから学習したいと考えています。
エージェントが専門家とのオンライン対話を通じて述語の解釈を学習する、具現化されたアクティブラーニングパラダイムを提案します。
たとえば、ブロック スタッキング環境でアクションを実行した後、エージェントは専門家に「On(block1, block2) は true ですか?」と尋ねることがあります。
この経験から、エージェントは計画を学習します。エージェントは、ニューラル述語の解釈、シンボリック計画演算子、バイレベル計画に使用できるニューラル サンプラーを学習します。
調査中、エージェントは学習を計画します。現在のモデルを使用して、有益なエキスパート クエリを生成するためのアクションを選択します。
述語の解釈をニューラル ネットワークの集合体として学習し、それらのエントロピーを使用して潜在的なクエリの有益性を測定します。
このアプローチを 3 つのロボット環境で評価したところ、6 つのベースラインよりも一貫して優れていることがわかりました。また、2 つの主要な指標である環境相互作用の数と専門家へのクエリ数でサンプル効率を示しています。
コード: https://tinyurl.com/active-predicates

要約(オリジナル)

State abstraction is an effective technique for planning in robotics environments with continuous states and actions, long task horizons, and sparse feedback. In object-oriented environments, predicates are a particularly useful form of state abstraction because of their compatibility with symbolic planners and their capacity for relational generalization. However, to plan with predicates, the agent must be able to interpret them in continuous environment states (i.e., ground the symbols). Manually programming predicate interpretations can be difficult, so we would instead like to learn them from data. We propose an embodied active learning paradigm where the agent learns predicate interpretations through online interaction with an expert. For example, after taking actions in a block stacking environment, the agent may ask the expert: ‘Is On(block1, block2) true?’ From this experience, the agent learns to plan: it learns neural predicate interpretations, symbolic planning operators, and neural samplers that can be used for bilevel planning. During exploration, the agent plans to learn: it uses its current models to select actions towards generating informative expert queries. We learn predicate interpretations as ensembles of neural networks and use their entropy to measure the informativeness of potential queries. We evaluate this approach in three robotic environments and find that it consistently outperforms six baselines while exhibiting sample efficiency in two key metrics: number of environment interactions, and number of queries to the expert. Code: https://tinyurl.com/active-predicates

arxiv情報

著者 Amber Li,Tom Silver
発行日 2023-03-08 22:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク