要約
現実世界に配備される自律ロボットには、環境の変化に迅速に適応する制御ポリシーが必要です。
この目的を達成するために、我々は AutoRobotics-Zero (ARZ) を提案します。これは AutoML-Zero に基づいて、ゼロショットで適応可能なポリシーを最初から発見する手法です。
モデル パラメーターのみが最適化されるニューラル ネットワーク適応ポリシーとは対照的に、ARZ は線形レジスタ マシンの最大限の表現力を備えた制御アルゴリズムを構築できます。
私たちは、モデルパラメータを調整し、推論アルゴリズムをオンザフライで変更して、突然の環境変化に適応するモジュール型ポリシーを進化させます。
私たちは、現実的にシミュレートされた四足歩行ロボットでこの方法を実証し、個々の手足が突然折れた場合の落下を回避する安全な制御ポリシーを進化させます。
これは、2 つの一般的なニューラル ネットワーク ベースラインが失敗する難しいタスクです。
最後に、Cataclysmic Cartpole と呼ばれる、斬新で挑戦的な非定常制御タスクに関するメソッドの詳細な分析を実行します。
結果は、ARZ が突然の環境変化に対して大幅に堅牢であり、シンプルで解釈可能な制御ポリシーを構築できるという調査結果を裏付けています。
要約(オリジナル)
Autonomous robots deployed in the real world will need control policies that rapidly adapt to environmental changes. To this end, we propose AutoRobotics-Zero (ARZ), a method based on AutoML-Zero that discovers zero-shot adaptable policies from scratch. In contrast to neural network adaption policies, where only model parameters are optimized, ARZ can build control algorithms with the full expressive power of a linear register machine. We evolve modular policies that tune their model parameters and alter their inference algorithm on-the-fly to adapt to sudden environmental changes. We demonstrate our method on a realistic simulated quadruped robot, for which we evolve safe control policies that avoid falling when individual limbs suddenly break. This is a challenging task in which two popular neural network baselines fail. Finally, we conduct a detailed analysis of our method on a novel and challenging non-stationary control task dubbed Cataclysmic Cartpole. Results confirm our findings that ARZ is significantly more robust to sudden environmental changes and can build simple, interpretable control policies.
arxiv情報
著者 | Stephen Kelly,Daniel S. Park,Xingyou Song,Mitchell McIntire,Pranav Nashikkar,Ritam Guha,Wolfgang Banzhaf,Kalyanmoy Deb,Vishnu Naresh Boddeti,Jie Tan,Esteban Real |
発行日 | 2023-07-31 17:57:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google