要約
この論文では、インタラクティブな機械学習メカニズムを導入して、不確実な非線形動的プロセスの測定値を処理し、リアルタイムで作動戦略をアドバイスします。
コンセプトのデモンストレーションでは、Kinova ロボット アームの軌跡追従最適化問題が、ゆっくりと変化するダイナミクスの安定性が保証された統合強化学習アプローチを使用して解決されます。
このソリューションは、モデルを使用しない値反復プロセスを使用して実装され、問題の積分時間差分方程式を解きます。
提案された手法のパフォーマンスは、別のモデルフリーの高次アプローチのパフォーマンスに対してベンチマークされ、動的ペイロードと外乱について検証されます。
そのベンチマークとは異なり、提案された適応戦略は極端なプロセス変動を処理することができます。
これは、マニピュレーター アームの定格最大ペイロード容量に近い静的で時間的に変化するペイロードを導入することによって実験的に実証されています。
比較アルゴリズムは、提案された統合強化学習ソリューションと比較して、最大 7 倍のオーバーシュートを示しました。
アルゴリズムの堅牢性は、5% もの標準偏差のホワイト ノイズを使用して、リアルタイムの適応戦略ゲインを乱すことによってさらに検証されます。
要約(オリジナル)
The paper introduces an interactive machine learning mechanism to process the measurements of an uncertain, nonlinear dynamic process and hence advise an actuation strategy in real-time. For concept demonstration, a trajectory-following optimization problem of a Kinova robotic arm is solved using an integral reinforcement learning approach with guaranteed stability for slowly varying dynamics. The solution is implemented using a model-free value iteration process to solve the integral temporal difference equations of the problem. The performance of the proposed technique is benchmarked against that of another model-free high-order approach and is validated for dynamic payload and disturbances. Unlike its benchmark, the proposed adaptive strategy is capable of handling extreme process variations. This is experimentally demonstrated by introducing static and time-varying payloads close to the rated maximum payload capacity of the manipulator arm. The comparison algorithm exhibited up to a seven-fold percent overshoot compared to the proposed integral reinforcement learning solution. The robustness of the algorithm is further validated by disturbing the real-time adapted strategy gains with a white noise of a standard deviation as high as 5%.
arxiv情報
著者 | Mohammed Abouheaf,Derek Boase,Wail Gueaieb,Davide Spinello,Salah Al-Sharhan |
発行日 | 2023-03-15 16:36:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google