Learning to Ground Existentially Quantified Goals

要約

自律型 AI エージェントの目標命令では、オブジェクトが一意の名前を持つことを想定できません。
代わりに、ゴール内のオブジェクトは、適切な説明を提供して参照する必要があります。
しかし、これは古典的な計画と一般化された計画の両方において問題を引き起こします。
古典的な計画で存在的に定量化された目標を処理する標準的なアプローチには、考えられるすべての変数バインディングをエンコードする DNF 式に目標をコンパイルし、各 DNF 項を新しいダミー目標にマッピングするダミー アクションを追加することが含まれます。
この前処理は変数の数が指数関数的に増加します。
一般化された計画では、問題は異なります。たとえ一般ポリシーが初期の状況や目標に対処できるとしても、一般ポリシーを実行するには、ポリシー機能の値を定義するために目標を根拠付ける必要があります。
目標のグラウンディングの問題、つまり目標変数をバインドするオブジェクトを見つけるという問題は微妙です。これは古典的な計画の一般化であり、バインドする目標変数がない場合の特殊なケースであり、制約推論も特殊なケースです。
アクションがないとき。
この研究では、新しい教師あり学習アプローチを使用して目標グラウンディングの問題に対処します。
小さなドメイン インスタンスで部分的に定量化された目標のコストを予測するようにトレーニングされた GNN アーキテクチャは、より多くのオブジェクトとさまざまな定量化された目標を含む大規模なインスタンスでテストされます。
提案されたアーキテクチャは、いくつかの計画ドメインにわたって実験的に評価され、目標変数とそのような変数をバインドできるオブジェクトの数を含むいくつかの次元に沿って一般化がテストされます。
このアプローチの範囲についても、GNN と C2 ロジックの間の既知の関係を考慮して説明します。

要約(オリジナル)

Goal instructions for autonomous AI agents cannot assume that objects have unique names. Instead, objects in goals must be referred to by providing suitable descriptions. However, this raises problems in both classical planning and generalized planning. The standard approach to handling existentially quantified goals in classical planning involves compiling them into a DNF formula that encodes all possible variable bindings and adding dummy actions to map each DNF term into the new, dummy goal. This preprocessing is exponential in the number of variables. In generalized planning, the problem is different: even if general policies can deal with any initial situation and goal, executing a general policy requires the goal to be grounded to define a value for the policy features. The problem of grounding goals, namely finding the objects to bind the goal variables, is subtle: it is a generalization of classical planning, which is a special case when there are no goal variables to bind, and constraint reasoning, which is a special case when there are no actions. In this work, we address the goal grounding problem with a novel supervised learning approach. A GNN architecture, trained to predict the cost of partially quantified goals over small domain instances is tested on larger instances involving more objects and different quantified goals. The proposed architecture is evaluated experimentally over several planning domains where generalization is tested along several dimensions including the number of goal variables and objects that can bind such variables. The scope of the approach is also discussed in light of the known relationship between GNNs and C2 logics.

arxiv情報

著者 Martin Funkquist,Simon Ståhlberg,Hector Geffner
発行日 2024-09-30 12:49:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク