Bayesian Optimization with Adaptive Kernels for Robot Control

要約

アクティブ ポリシー検索では、ポリシー検索の試行錯誤手法とベイズ最適化を組み合わせて、最適なポリシーをアクティブに見つけます。
まず、ポリシー検索は強化学習の一種であり、複雑な連続状態およびアクション空間を処理できるため、ロボット制御で非常に人気があります。
2 番目に、ベイジアン最適化は、ガウス プロセスのような代理モデルと、最適化プロセス中に各サンプルを慎重に選択するための最適な意思決定を使用する、サンプル効率の高いグローバル最適化手法です。
各トライアルに実際のロボット、高価なモンテカルロ実行、または複雑なシミュレータが含まれる場合、サンプル効率が最も重要になります。
非定常モデリングは通常事前知識に基づいているため、ブラックボックス ベイジアン最適化では一般に定常プロセスからのコスト関数が想定されます。
ただし、多くの制御問題は、故障状態、最終状態、その他の突然の影響により、本質的に非定常です。
この論文では、適応ローカル領域を使用して、事前知識なしで非定常モデリングを可能にする、ベイジアン最適化用に特別に設計されたカーネル関数を紹介します。
よく知られた最適化ベンチマークやロボット制御シナリオで実験的に示されているように、新しいカーネルでは、グローバル検索 (探索) を損なうことなく、ローカル検索 (エクスプロイト) が改善されます。
最後に、UAV の翼形状の設計におけるその可能性を示します。

要約(オリジナル)

Active policy search combines the trial-and-error methodology from policy search with Bayesian optimization to actively find the optimal policy. First, policy search is a type of reinforcement learning which has become very popular for robot control, for its ability to deal with complex continuous state and action spaces. Second, Bayesian optimization is a sample efficient global optimization method that uses a surrogate model, like a Gaussian process, and optimal decision making to carefully select each sample during the optimization process. Sample efficiency is of paramount importance when each trial involves the real robot, expensive Monte Carlo runs, or a complex simulator. Black-box Bayesian optimization generally assumes a cost function from a stationary process, because nonstationary modeling is usually based on prior knowledge. However, many control problems are inherently nonstationary due to their failure conditions, terminal states and other abrupt effects. In this paper, we present a kernel function specially designed for Bayesian optimization, that allows nonstationary modeling without prior knowledge, using an adaptive local region. The new kernel results in an improved local search (exploitation), without penalizing the global search (exploration), as shown experimentally in well-known optimization benchmarks and robot control scenarios. We finally show its potential for the design of the wing shape of a UAV.

arxiv情報

著者 Ruben Martinez-Cantin
発行日 2024-02-10 18:49:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク