要約
ニューラル ネットワークは、ロボット工学において、ポリシー、状態遷移モデル、状態推定モデル、または上記すべてとして使用されることが増えています。
これらのコンポーネントはデータから学習されるため、どのような動作が学習されたのか、またそれが閉ループのパフォーマンスにどのような影響を与えるのかを分析できることが重要です。
この論文では、ニューラル ネットワークとして表現される動的システムの制御不変集合と引力領域 (ROA) を計算する方法を開発することで、この目標に向けた一歩を踏み出します。
我々は、連続区分的アフィン (PWA) 関数を実装することが知られている、整流線形単位 (ReLU) 活性化を備えたフィードフォワード ニューラル ネットワークに焦点を当てます。
インクリメンタル接続ウォークを通じてニューラル ネットワークのアフィン部分を列挙するための Reachable Polyhedral Marching (RPM) アルゴリズムについて説明します。
次に、このアルゴリズムを使用して正確な前方および後方到達可能セットを計算し、そこから制御不変セットと ROA を計算するためのメソッドを提供します。
私たちのアプローチは、Lyapunov ベースのツールを使用せずに、これらのセットを段階的に見つけるという点で独特です。
私たちの例では、学習されたファン デル ポール振動子と振り子モデルを使用してタスクで非凸制御不変集合と ROA を見つけるアプローチの能力を示します。
さらに、RPM が提供するアフィン領域の増分および接続された列挙を活用する、ROA を計算するための高速アルゴリズムを提供します。
例では、この加速が 15 倍のスピードアップにつながることを示しています。
最後に、私たちの方法を適用して、航空機の滑走路制御の問題に対して画像ベースのコントローラーによって安定化される一連の状態を見つけます。
要約(オリジナル)
Neural networks are increasingly used in robotics as policies, state transition models, state estimation models, or all of the above. With these components being learned from data, it is important to be able to analyze what behaviors were learned and how this affects closed-loop performance. In this paper we take steps toward this goal by developing methods for computing control invariant sets and regions of attraction (ROAs) of dynamical systems represented as neural networks. We focus our attention on feedforward neural networks with the rectified linear unit (ReLU) activation, which are known to implement continuous piecewise-affine (PWA) functions. We describe the Reachable Polyhedral Marching (RPM) algorithm for enumerating the affine pieces of a neural network through an incremental connected walk. We then use this algorithm to compute exact forward and backward reachable sets, from which we provide methods for computing control invariant sets and ROAs. Our approach is unique in that we find these sets incrementally, without Lyapunov-based tools. In our examples we demonstrate the ability of our approach to find non-convex control invariant sets and ROAs on tasks with learned van der Pol oscillator and pendulum models. Further, we provide an accelerated algorithm for computing ROAs that leverages the incremental and connected enumeration of affine regions that RPM provides. We show this acceleration to lead to a 15x speedup in our examples. Finally, we apply our methods to find a set of states that are stabilized by an image-based controller for an aircraft runway control problem.
arxiv情報
著者 | Joseph A. Vincent,Mac Schwager |
発行日 | 2024-12-05 15:23:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google