要約
目標条件付きポリシーは、現在の状態と目標の仕様から次に取るべきアクションにマッピングするニューラル ネットワークの形式の「フィードフォワード」回路であると一般に理解されています。
しかし、そのような政策がどのような状況で学習できるのか、またその政策がどれほど効率的になるのかはよくわかっていません。
この論文では、直列化目標回帰探索 (S-GRS) との接続を描画することにより、問題を計画するためのポリシーを表すリレーショナル ニューラル ネットワーク (グラフ ニューラル ネットワークやトランスフォーマーなど) の回路複雑性解析を紹介します。
オブジェクトの数と計画期間の関数としての回路の幅と深さの増加という観点から、計画問題には 3 つの一般的なクラスがあることを示し、建設的な証明を提供します。
また、ポリシー学習用のニューラル ネットワークの設計におけるこの分析の有用性についても説明します。
要約(オリジナル)
Goal-conditioned policies are generally understood to be ‘feed-forward’ circuits, in the form of neural networks that map from the current state and the goal specification to the next action to take. However, under what circumstances such a policy can be learned and how efficient the policy will be are not well understood. In this paper, we present a circuit complexity analysis for relational neural networks (such as graph neural networks and transformers) representing policies for planning problems, by drawing connections with serialized goal regression search (S-GRS). We show that there are three general classes of planning problems, in terms of the growth of circuit width and depth as a function of the number of objects and planning horizon, providing constructive proofs. We also illustrate the utility of this analysis for designing neural networks for policy learning.
arxiv情報
著者 | Jiayuan Mao,Tomás Lozano-Pérez,Joshua B. Tenenbaum,Leslie Pack Kaelbling |
発行日 | 2023-12-06 18:47:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google