Dimensionless Policies based on the Buckingham $π$ Theorem: Is This a Good Way to Generalize Numerical Results?

要約

コンテキスト (モーション コントロールの問題を定義する変数のリスト) が次元的に類似している場合、タイトルで提示された質問に対する答えは「はい」です。
この記事では、物理システムの制御ポリシーを、さまざまな状況で再利用できるより一般的な形式の知識にエンコードするためのツールとして、バッキンガム $\pi$ 定理の使用について検討します。
このアプローチは、制御ポリシーを学習するアルゴリズムの基本単位のスケーリングに対して不変性を強制するものとして解釈できます。
まず、無次元変数を使用したモーション制御問題の解決策を再度述べることで、(1) ポリシー マッピングに含まれるパラメータの数が減り、(2) 特定のシステムに対して数値的に生成された制御ポリシーをサブセットに正確に転送できることを示します。
入力変数と出力変数を適切にスケーリングすることで、次元的に類似したシステムを構築できます。
これら 2 つの一般的な理論結果は、数値的に生成された最適なコントローラーを使用して、トルク制限された倒立振子を振り上げ、滑りやすい状況で車両を位置決めするという古典的な運動制御の問題に対して実証されます。
また、類似性条件を緩和するのに役立つ、コンテキスト変数の空間内の領域であるレジームの概念についても説明します。
さらに、コンテキスト固有のブラック ボックス ポリシーの入力と出力の次元スケーリングを適用することが、線形二次調整器 (LQR) と計算トルク コントローラーを使用して、特定の条件下で解析方程式に新しいシステム パラメーターを代入することとどのように同等であるかについて説明します。
例として。
より複雑な高次元の問題に対するポリシーを一般化するために、このアプローチがどれほど実用的であるかはまだわかりませんが、初期の結果は、これが動的計画法や強化学習などの数値的アプローチにとって有望な転移学習ツールであることを示しています。

要約(オリジナル)

The answer to the question posed in the title is yes if the context (the list of variables defining the motion control problem) is dimensionally similar. This article explores the use of the Buckingham $\pi$ theorem as a tool to encode the control policies of physical systems into a more generic form of knowledge that can be reused in various situations. This approach can be interpreted as enforcing invariance to the scaling of the fundamental units in an algorithm learning a control policy. First, we show, by restating the solution to a motion control problem using dimensionless variables, that (1) the policy mapping involves a reduced number of parameters and (2) control policies generated numerically for a specific system can be transferred exactly to a subset of dimensionally similar systems by scaling the input and output variables appropriately. Those two generic theoretical results are then demonstrated, with numerically generated optimal controllers, for the classic motion control problem of swinging up a torque-limited inverted pendulum and positioning a vehicle in slippery conditions. We also discuss the concept of regime, a region in the space of context variables, that can help to relax the similarity condition. Furthermore, we discuss how applying dimensional scaling of the input and output of a context-specific black-box policy is equivalent to substituting new system parameters in an analytical equation under some conditions, using a linear quadratic regulator (LQR) and a computed torque controller as examples. It remains to be seen how practical this approach can be to generalize policies for more complex high-dimensional problems, but the early results show that it is a promising transfer learning tool for numerical approaches like dynamic programming and reinforcement learning.

arxiv情報

著者 Alexandre Girard
発行日 2024-02-28 21:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 00A73, 68T40, 70Q05 (Primary), 93C85, cs.AI, cs.RO, cs.SY, eess.SY, math.OC パーマリンク