要約
共同設計には、コントローラーとエージェントの物理設計を同時に最適化することが含まれます。
その固有の 2 レベルの最適化定式化では、内側のループ制御の最適化によって駆動される外側のループ設計の最適化が必要になります。
設計空間が大きく、各設計評価に制御最適化のためのデータ集約型の強化学習プロセスが含まれる場合、これは困難になる可能性があります。
サンプル効率を向上させるために、ハイパーバンドに基づくマルチ忠実度ベースの設計探索戦略を提案します。この戦略では、後続のコントローラー学習問題をウォームスタートするためのユニバーサル ポリシー学習器を介して、設計空間全体で学習されたコントローラーを結び付けます。
さらに、ユニバーサル ポリシー学習器のウォーム スタート効果が新しい設計評価ごとに強化されるため、ハイパーバンドの確率性が最大限に低減されることを保証する、ハイパーバンドで生成された設計マトリックスを走査する特定の方法を推奨します。
幅広いエージェント設計問題に対して実行された実験により、ベースラインと比較して私たちの方法の優位性が実証されました。
さらに、最適化された設計の分析により、設計の簡素化や生物界で出現した非直観的な変更など、興味深い設計変更が示されます。
要約(オリジナル)
Co-design involves simultaneously optimizing the controller and agents physical design. Its inherent bi-level optimization formulation necessitates an outer loop design optimization driven by an inner loop control optimization. This can be challenging when the design space is large and each design evaluation involves data-intensive reinforcement learning process for control optimization. To improve the sample-efficiency we propose a multi-fidelity-based design exploration strategy based on Hyperband where we tie the controllers learnt across the design spaces through a universal policy learner for warm-starting the subsequent controller learning problems. Further, we recommend a particular way of traversing the Hyperband generated design matrix that ensures that the stochasticity of the Hyperband is reduced the most with the increasing warm starting effect of the universal policy learner as it is strengthened with each new design evaluation. Experiments performed on a wide range of agent design problems demonstrate the superiority of our method compared to the baselines. Additionally, analysis of the optimized designs shows interesting design alterations including design simplifications and non-intuitive alterations that have emerged in the biological world.
arxiv情報
著者 | Kishan R. Nagiredla,Buddhika L. Semage,Thommen G. Karimpanal,Arun Kumar A. V,Santu Rana |
発行日 | 2023-09-08 02:54:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google