要約
自律型ロボット エージェントを共同設計するには、コントローラーとエージェントの物理設計を同時に最適化する必要があります。
その固有の 2 レベルの最適化定式化では、内側のループ制御の最適化によって駆動される外側のループ設計の最適化が必要になります。
設計空間が大きく、各設計評価に制御最適化のためのデータ集約型の強化学習プロセスが含まれる場合、これは困難になる可能性があります。
協調設計のサンプル効率を向上させるために、後続のコントローラー学習問題をウォームスタートするためのユニバーサル ポリシー学習器を介して設計空間全体で学習されたコントローラーを結び付ける、マルチ忠実度ベースの探索戦略を提案します。
広範囲のエージェント設計問題に対して実行された実験により、ベースラインと比較して私たちの方法の優位性が実証されました。
さらに、最適化された設計を分析すると、設計の簡素化や非直感的な変更など、興味深い設計変更が示されます。
要約(オリジナル)
Co-designing autonomous robotic agents involves simultaneously optimizing the controller and physical design of the agent. Its inherent bi-level optimization formulation necessitates an outer loop design optimization driven by an inner loop control optimization. This can be challenging when the design space is large and each design evaluation involves a data-intensive reinforcement learning process for control optimization. To improve the sample efficiency of co-design, we propose a multi-fidelity-based exploration strategy in which we tie the controllers learned across the design spaces through a universal policy learner for warm-starting subsequent controller learning problems. Experiments performed on a wide range of agent design problems demonstrate the superiority of our method compared to baselines. Additionally, analysis of the optimized designs shows interesting design alterations, including design simplifications and non-intuitive alterations.
arxiv情報
著者 | Kishan R. Nagiredla,Buddhika L. Semage,Arun Kumar A. V,Thommen G. Karimpanal,Santu Rana |
発行日 | 2024-10-16 03:03:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google