要約
状態の抽象化は、継続的な状態とアクション、長いタスク期間、まばらなフィードバックを伴うロボット環境で計画を立てるための効果的な手法です。
オブジェクト指向環境では、述語は、シンボリック プランナとの互換性とリレーショナル一般化の能力により、状態抽象化の特に便利な形式です。
ただし、述語を使用して計画を立てるには、エージェントが継続的な環境状態で述語を解釈できなければなりません (つまり、シンボルを接地する)。
述語の解釈を手動でプログラミングするのは難しい場合があるため、代わりにデータから学習したいと考えています。
私たちは、エージェントが専門家とのオンライン対話を通じて述語の解釈を学習する、具体化されたアクティブラーニングパラダイムを提案します。
たとえば、ブロック スタッキング環境でアクションを実行した後、エージェントは専門家に「On(block1, block2) は true ですか?」と尋ねることがあります。
この経験から、エージェントは計画を学習します。つまり、ニューラル述語の解釈、記号的な計画演算子、および 2 レベルの計画に使用できるニューラル サンプラーを学習します。
探索中に、エージェントは学習を計画します。現在のモデルを使用して、有益な専門家のクエリを生成するためのアクションを選択します。
私たちは述語の解釈をニューラル ネットワークのアンサンブルとして学習し、そのエントロピーを使用して潜在的なクエリの有益性を測定します。
このアプローチを 3 つのロボット環境で評価したところ、環境インタラクションの数と専門家へのクエリの数という 2 つの主要な指標でサンプル効率を示しながら、6 つのベースラインを常に上回っていることがわかりました。
コード: https://tinyurl.com/active-predicates
要約(オリジナル)
State abstraction is an effective technique for planning in robotics environments with continuous states and actions, long task horizons, and sparse feedback. In object-oriented environments, predicates are a particularly useful form of state abstraction because of their compatibility with symbolic planners and their capacity for relational generalization. However, to plan with predicates, the agent must be able to interpret them in continuous environment states (i.e., ground the symbols). Manually programming predicate interpretations can be difficult, so we would instead like to learn them from data. We propose an embodied active learning paradigm where the agent learns predicate interpretations through online interaction with an expert. For example, after taking actions in a block stacking environment, the agent may ask the expert: ‘Is On(block1, block2) true?’ From this experience, the agent learns to plan: it learns neural predicate interpretations, symbolic planning operators, and neural samplers that can be used for bilevel planning. During exploration, the agent plans to learn: it uses its current models to select actions towards generating informative expert queries. We learn predicate interpretations as ensembles of neural networks and use their entropy to measure the informativeness of potential queries. We evaluate this approach in three robotic environments and find that it consistently outperforms six baselines while exhibiting sample efficiency in two key metrics: number of environment interactions, and number of queries to the expert. Code: https://tinyurl.com/active-predicates
arxiv情報
著者 | Amber Li,Tom Silver |
発行日 | 2023-06-19 14:50:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google